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Abstract 


The master thesis gives an overview of the state-of-the-art in mass surveillance methods 
and practices following the Snowden relevations and scientific papers with a focus on NLP 
methods. For the practical part of this work, genesis and the nature of search terms (content 
or soft selectors) used in finding text material by the needle-in-a-haystock methodology 
are researched, implemented, evaluated and critically dicscussed. Quantitatively and 
technically, as expected, it is found that false positive rates in general are high, eventhough 
some of the surveillance methods assumed perform better considering specific cases in 
comparison. Qualitatively and ethically, it is found such methods in action can never 
be - socially - proportionate considering (1) their lack to take into account the semantic 
complexity of natural language and (2) by the incentives they create to gather more and 
more data in order to reduce possible sparse data problems or to produce true positives (at 
all) - thus increasingly violating basic privacy rights. 


Zusammenfassung 

Die Masterarbeit bietet eine Übersicht vom Stand der Technik der Massenüberwachung, 
gegeben die Snowden-Enthüllungen und wissenschaftliche Papers mit einem Fokus auf 
CL-Methoden. Im praktischen Teil der Arbeit wird die Entstehung und Natur inhaltlicher 
Suchbegriffe oder Selektoren, welche zur Suche von Textmaterial entsprechend der Nadel- 
im-Heuhaufen-Methodologie eingesetzt werden, erforscht, implementiert, evaluiert und 
kritisch diskutiert. Wie erwartet, wird quantitativ und technisch befunden, dass die Rate 
der False-Positives generell hoch ausfällt, wenn auch einige der angenommenen Überwa- 
chungsmethoden in spezifischen Fällen im Vergleich besser funktionieren. Qualitativ und 
ethisch wird befunden, dass der Einsatz solcher Methoden niemals - sozial - verhältnis- 
mässig sein kann, weil sie (1) der semantischen Komplexität von natürlicher Sprache nicht 
gerecht werden und (2) Anreize dafür geschaffen werden, immer mehr Daten zu sammeln, 
um mögliche Sparse-Data-Probleme zu reduzieren oder (überhaupt) True-Positives zu pro- 
duzieren - zum Preis grundlegende Rechte der Privatsphäre immer mehr zu untergraben. 
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1 Einführung 


Wie ein langsames Gift sickert in die Gesellschaft, dass man sich sowohl mit 
Massenüberwachung als auch mit andauernder Spionage gegen die Bevölkerung 
und die Spitzen von Politik und Wirtschaft einrichtet. Die Ohnmacht, die aus 
dem Unwillen der politischen Eliten rührt, dem in- und ausländischen Geheim- 
dienstsumpf etwas entgegenzusetzen, wird zum Normalzustand. Geheimdienste 
spitzeln eben, wie sie wollen, lautet das hilflose Glaubensbekenntnis. 

- Constanze Kurz 2 am 13. Juli 2015 [57] 


1 . 1 Motivation und Sinn 

Spätestens 3 seit dem Anbeginn der Snowden -Enthüllungen im Juni 2013 wird deutlich, wie 
weit fortgeschritten der weltweite Überwachungskomplex aus Privatindustrie und Geheim- 
diensten ist. Speziell die Enthüllungen um die Systeme PRISM, Tempora und XKey score 
zeigen auf, dass wo immer möglich der Full-Take-Ansatz praktiziert wird, wonach kom- 
plette Datenströme der weltweiten Kommunikation abgefangen und maschinell ausgewertet 
werden. Hierfür werden verdachtsunabhängig und auf globaler Ebene Daten direkt von 
Endgeräten, von Content-, Zugangsprovider, oder roh aus Funkverbindungen, Glasfaser- 
leitungen und Unterseekabel ausgeleitet, erfasst, gegebenenfalls auf einer gemeinsamen 
Plattform gelagert und von dort aus abgerufen sowie verwertet. 

Um die Jahrtausendwende wurde das Echelon- System der Five .Eyes-Staaten (Australien, 
Kanada, Neuseeland, UK, USA) offiziell im Rahmen einer Untersuchung der Europäischen 
Union EU bestätigt. 4 Dieser Verbund ermöglicht schon seit Jahrzehnten die umfassende 
Überwachung von (zunächst: satellitenbasierter; später: generell funk- und kabelbasierter) 
Kommunikation. 

Auch die Schweiz mischt im globalen Datenhandel mit: An drei Standorten überwacht 
die Eidgenossenschaft seit 2005 im Vollbetrieb mittels eines Onyx genannten Systems zur 


2 Aktivistin und Sprecherin des Chaos Computer Club CCC 

tatsächlich lagen auch schon vor Jahrzehnten deutlich Hinweise vor, dass eine globale Überwachungs- 
maschinerie existiert: zu dieser Zeit allerdings in summarischer Erwähnung und wenig konkret. Zudem: 
noch nicht so fortgeschritten wie in den jüngeren Jahren. 

4 Erstmals wurde es schon 1988 enthüllt; vgl. Abschnitt 2.4.2. 
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Massenüberwachung von Funkverbindungen 5 satellitengestützte Kommunikationsströme 
in umfassender und (öffentlich) unkontrollierbarer Weise. 

Während der Masterarbeit hat das Schweizer Parlament (National- und Ständerat) am 25. 
September 2015 zudem das Nachrichtendienstgesetz NDG verabschiedet: 6 Dieses sieht 
nebst vielen weiteren Überwachungsmöglichkeiten auch - ähnlich wie bei Tempora - vor, 
über Kabel geführte Kommunikation der Möglichkeit der Massenüberwachung zu unter- 
stellen. Dafür sollen Schweizer Glasfaserleitungen direkt unter der zwangsweisen Daten- 
zuleitung durch Schweizer Internet-Zugangsprovider angezapft werden können. Hinzu 
kommt, dass jüngere Medienberichte unter Beizug konkreter geheimdienstlicher Unterla- 
gen daraufhinweisen, dass Schweizer Leitungen der Swisscom bereits heute von zumindest 
ausländischen Diensten angezapft werden. [38, 67] 

Spätestens mit dieser in- und ausländischen Überwachung kabelgebundener Kommunika- 
tion muss jede in der Schweiz ansässige Person damit rechnen, von der Massenüberwachung 
betroffen zu sein, unabhängig davon, ob diese eine Gefahr für die innere oder äussere Sicher- 
heit der Schweiz oder die eines anderen Landes darstellt. 

Es ist öffentlich - wenn auch wenig konkret - bekannt, dass die überwachten Datenströme 
mittels sogenannter Selektoren oder (kombinierten) Suchbegriffen “gerastert” 7 werden, um 
die maschinell zu verarbeitenden Inhalte zu “filtern” und zu sortieren. In der Schweiz hat 
die für die Geheimdienstkontrolle zuständige Geschäftsprüfungsdelegation aus National - 
und Ständeräten GPDel diverse Berichte verfasst, wo das etwaige Vorgehen beschrieben 
wird, ohne aber je auf die genaue Natur des Zustandekommens der Selektoren einzugehen. 
Dennoch: die GPDel befasst sich kritisch mit der Wirksamkeit der angewandten Methoden 
und wirft Fragen der Vereinbarkeit der existierenden Praxis mit der Europäischen Men- 
schenrechtskonvention EMRK auf. 

Die Masterarbeit hat im Kern den Sinn, den Einsatz der Computerlinguistik und Sprachtech- 
nologie für den Bereich der Massenüberwachung in ihrer Methodologie - soweit öffentlich 
ermittelbar - zu erörtern, in einem eigenen Überwachungssetting zu illustrieren und damit 
auch kritisch zu hinterfragen. 

Immer wieder habe ich im Nebenfach der Soziologie die Möglichkeit genutzt, mich mit 
Themen der informationellen Selbstbestimmung, Freiheit und Demokratie im und mittels 
Internet auseinander zu setzen. Im Rahmen dieser Abschlussarbeit wird dieses Themenfeld 


5 Dem Wesen nach Ec/ieZon-ähnlich. 

6 Vgl. Geschäftsdatenbank Curia Vista (2015). 14.022 - Geschäft des Bundesrates. Nachrichtendienstgesetz. 

URL http : / /www .pariament . ch/d/ suche/ seiten/ geschaefte . aspx?gesch_id=2014 0022. Abruf: 
14. November 2015. 

7 Angespielt wird hier auf den Begriff der Rasterfahndung, die im Deutschland der 1970er Jahre eingeführt 
wurde, um nach RAF-Mitgliedern mittels massenweiser Auswertung von Datenbeständen unter Anwendung 
von Verfahren mit Ausschlusskriterien zu fahnden. 
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erstmals mit meinem Hauptfach der Computerlinguistik und Sprachtechnologie verknüpft: 
der Fokus der Masterarbeit ist naturgemäss ein computerlinguistisch- und technischer, 
wobei deren Befunde durchaus das Potenzial haben, mancherlei soziologische Fragestellung 
aufzuwerfen, die gesonders erörtert werden kann und - so denke ich - auch muss. 

In vier Punkten liegt dieser Arbeit folgende Motivation zu Grunde: 

1. Der global existierende und massive Überwachungskomplex, der mithin durch En- 
twicklungen im Bereich der Computertechnik und -linguistik begünstigt wird, soll 
vergegenwärtigt werden: dies geschieht durch Aufzeigen des Forschungsstandes im 
Bereich der Überwachungsmethodologie, insbesondere wo sie sich Techniken aus 
der Wissenschaft der Computerlinguistik oder Softwareprodukten mit sprachtech- 
nologischen Fähigkeiten bedient; weiterhin durch Zitation offizieller Berichte par- 
lamentarischer Kontrollgremien und mit Bezug zu nicht offiziellen Publikationen, 
wie solchen, die zunehmend durch Enthüllungen des ehemaligen Geheimdienstmi- 
tarbeiters Edward Snowden an die Öffentlichkeit geraten sind oder jenen, die als 
Veröffentlichungen seitens der Whistleblower- und Journalisten-Plattform WikiLeaks 8 
publiziert werden. Damit soll das bestehende “Herrschaftswissen” 9 in Sachen Theorie 
und Praxis von Formen der Massenüberwachung offengelegt und dadurch entzaubert 
und entmystifiziert werden. Es soll zwar nicht darüber hinweggetäuscht werden, dass 
der Umfang der bestehenden und global existierenden Überwachung harmlos ist oder 
zu unterschätzen wäre, doch aber gezeigt werden, dass im Grundsatz die bekannt 
gewordene Praxis dem Stand der Technik 10 entspricht. Gegebenenfalls kann damit - 
mit Überraschung - festgestellt werden, dass das komplette “Arsenal” computerlin- 
guistischen Wissens ausgeschöpft wird. 

2. In der Schweiz finden politische Entwicklungen hin zu mehr und umfassenden For- 
men der Massenüberwachung statt, die methodisch computerlinguistisch abgestützt 
sein können: das Überwachungsgesetz BÜPF 11 für den (repressiven) Bereich der 
Strafverfolgung ist einerseits in Arbeit total revidiert zu werden, andererseits wurde 
kürzlich das Geheimdienstgesetz NDG 12 für den (präventiven) Geheimdienstbereich 
geschaffen, wogegen aus linken und netzpolitischen Kreisen das bis Januar 2016 
laufende fakultative Referendum ergriffen wurde. Diese Gesetze kennen Formen der 
Massenüberwachung, die als Antennensuchlauf, Funk-, Kabelaufklärung oder Vor- 
ratsdatenspeicherung in der Schweizer Öffentlichkeit bekannt sind. Diese Arbeit soll 
für den bisher in der Schweiz wenig beachteten Teil der Funk- und Kabelaufklärung 
einen substanziellen Beitrag im Verständnis der möglichen Funktionsweise dieser 


8 Herausgeber: Julian Assange 

9 Damit ist im soziologischen Sinne gemeint: Wissen, das nur der regierenden und damit herrschenden Elite 
bekannt ist und ihr einen Informationsvorsprung gegenüber anderen Eliten einerseits und der Bevölkerung 
andererseits verschafft. 

10 Oder: State-of-the-Art 

n Bundesgesetz zur Überwachung des Post- und Fernmeldeverkehrs 
12 Bundesgesetz über den Nachrichtendienst (auch: Nachrichtendienstgesetz) 
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Form der Massenüberwachung liefern, die auch einem breiten Publikum auf Basis 
dieser Arbeit zugänglich gemacht werden kann. 

3. Diese Abschlussarbeit soll neben parlamentarischen Berichten und anderer Unter- 
suchungsarbeiten, die weltweit im Bereich der Aufklärung der Massenüberwachung 
laufen, dazu anregen, auf technischer Grundlage eine kritische Diskussion über die 
Wirksamkeit von Massenüberwachung zu ermöglichen, die angeblich dafür betrieben 
wird und unabdingbar dafür da sein soll, die Sicherheit aller zu erhöhen - wofür aber 
auch alle und faktisch das Grundrecht auf Privatsphäre aufgeben sollen. 

4. Zu guter Letzt soll die Arbeit in motivationaler Hinsicht dafür sensibilisieren, das 
politische Missbrauchspotenzial der Wissenschaft der Computerlinguistik und ganz 
besonders ihrer sprachtechnologischen Anwendungen aufzuzeigen: ich sehe dies als 
die Aufgabe der kritischen Reflexion des eigenen Fachs, die im Sinne von Verant- 
wortungsbewusstsein und (sozialer) Nachhaltigkeit nach meinem Empfinden zu den 
Kernkompetenzen aller Personen gehören, die entsprechende Kenntnisse erwerben 
und das Privileg haben, in höheren sozialen Stellungen zu sein, die mit erheblichem - 
wenn auch nur potenziellem - Einfluss auf die Gesellschaft und ihren nachfolgenden 
Generationen verbunden sind. Dies steht auch ganz im Einklang mit dem Leitbild 
der Universität Zürich, wonach “[ z]u verantwortlicher Wissenschaft [...] die ethische 
Reflexion ihrer Mittel und Folgen für Mensch, Tier und Umwelt [gehört]”. Diesem 
Grundsatz sei diese Arbeit verpflichtet. [121, S.10] 

1 .2 Forschungsfragen und Hypothesen 

Im Grundsatz leiten die folgenden Forschungsfragen diese Arbeit an: 

• Was ist Überwachung, spezifisch Massenüberwachung? 

• Was sind (mögliche) computerlinguistische und damit theoretische Grundlagen, die 
für Massenüberwachung geeignet sind und wie kann Massenüberwachung sprachtech- 
nologisch und damit praktisch umgesetzt werden? 

• Was wurde im Kontext der Computerlinguistik für Zwecke der Massenüberwachung 
bisher erforscht: im Rahmen der NSA oder von Forschungsprogrammen der EU? 

• Welche Formen der Massenüberwachung finden sowohl global als auch lokal (in der 
Schweiz) Anwendung und welche davon haben eine (starke) computerlinguistische 
Grundlage? 

• Welche konkreten sprachtechnologischen Produkte sind für die Massenüberwachung 
vorhanden? 

• Welche linguistisch verwertbaren Daten fallen bei der Überwachung vollständiger 
Datenströme überhaupt an? 
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• Welche konkreten Daten eines Datenstroms sind am interessantesten und reichen aus, 
um die Natur der Massenüberwachung im Rahmen der Masterarbeit exemplarisch 
darzustellen? 

Diese Fragenkomplexe sollen im Rahmen des Rechercheteils der Arbeit im Allgemeinen 
beantwortet werden. 

Zusätzlich führt die Masterarbeit im Kern ein kritisch-illustratives Datenprojekt, das 
aufzeigen soll, wie auf Basis von inhaltlichen Selektoren (auch: Soft-Selektoren, Suchbe- 
griffen, Stichworten oder Keywords) zur Massenüberwachung mehrheitlich Falschtreffer 
entstehen, womit Massenüberwachung - extrapoliert auf weitere Gebiete, wo ähnliches 
Vorgehen betrieben wird - zu vielen Falschverdächtigungen führen kann. 

Drei Hypothesen werden im Rahmen dieses Teils der Arbeit als wahr angenommen und 
sollen durch eigene Versuche plausibilisiert werden: 

1. Werden allgemeine Datenströme oder Dokumentenkollektionen mit spezifischen Se- 
lektoren inhaltlicher Art - auf Basis eines gegebenen Verdachtskorpus - durchsucht, 
ist der Anteil der False-Positives prävalent. 13 

2. Der Anteil der False-Positives variiert unter den Bedingungen der ersten Hypothese 
je nach Güte und Parameter des verwendeten computerlinguistischen Modells, Selek- 
toren zu generieren, merklich: dennoch dominieren auch bei “besseren” 14 CL-Modellen 
False-Positives die Ergebnisse. 

3. Selektoren von allgemeinsprachlicher Bedeutung, die - wenn sie auch daraus generiert 
wurden - nicht spezifisch auf das gegebene Verdachtsmaterial angepasst scheinen, 
erzeugen zwar eine höhere Trefferquote, doch sind damit auch mehr False-Positives 
verbunden. 15 

1.3 Fokus und Grenzen 

Der Arbeit hat den Fokus exemplarisch zu sein und weist - in Selbstkritik betrachtet - 
Einschränkungen auf. Sowohl mit der Wahl der Daten als auch Methoden sind der Arbeit 
entsprechend Grenzen der Aussagekraft und der Repräsentativität gesetzt, die zumindest 

1! Das bedeutet übertragen, dass bei einer Massenüberwachung, bei der unterschiedslos aller verfügbarer 
Textinhalt auf Basis einer kategorienspezifischen Stichwortsuche “gerastert” wird, die weitaus meisten 
Treffer, die als Filtrat bleiben und als “verdächtigen” Text im Sinne der Suche gelten, False-Positives sind. 

14 Es muss betont werden, dass jedes Modell durch seinen jeweiligen Fokus auf den Text, den es in Form von 
Selektoren nachbilden soll, andere - möglicherweise ausschliessende - Selektoren generiert, so dass selbst 
bei vergleichbaren Anteilen der False-Positives bei unterschiedlichen Selektoren veschiedener Modelle, 
gänzlich andere Inhalte (falsch) filtriert sein können. 

15 Das bedeutet, dass wenn auch ein Korpus mit “extremistischen” Inhalten dafür gewählt wird, Selektoren 
abzuleiten, diese aus Wörtern oder Ausdrücken konstituiert sein können, die soziolinguistisch wenig 
spezifisch auf die repräsentierte Gruppe ausfallen können. 
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die Folgenden sind: 

• Im Rechercheteil von Kapitel 2 wird (1) nur ein Teil der (Forschungs-)Literatur 
aufgezeigt, die sich mit der Massenüberwachung unter Einsatz computerlinguis- 
tischer Mittel beschäftigt; (2) die referenzierte Literatur kann nur in Auszügen und 
partiell kritisch analysiert werden, so dass das Bild vom Stand der Technik nicht 
vollständig sein kann. 

• Der Umfang der durchgeführten Volldatenüberwachung des eigenen Internetan- 
schlusses zur Generierung realistischer Evaluationsdaten beschränkt sich auf einen 
konkreten Zeitraum von zehn Tagen, womit der Datenbestand (1) im Sinne des Sparse- 
Data-Problems zu knapp ausfallen mag: in realen Szenarien ist möglich, dass eine 
Erfassung über einen längeren Zeitraum erfolgt; (2) ist die Repräsentativität des 
Datenstroms nicht gegeben, weil ein Bias in sowohl zeitlicher als auch persönlicher 
Hinsicht besteht. 

• Der eigens generierte Datenstrom stellt nur eine von vielen möglichen Perspektiven 
dar, mit der Einsicht in private Kommunikationen genommen werden kann: Potente 
Geheimdienste verfügen über eine globalere Sicht von Kommunikationen und können 
beispielsweise Datenströme zwischen Servern 16 mitschneiden oder durch Einsatz 
sogenannter GovWare (oder: Staatstrojanern) auch Daten auf Endgeräten einsehen. 17 

• In den Fällen, wo als Evaluationssysteme Suchmaschinen zum Einsatz kommen, 
muss auf die Ergebnisse der entsprechenden Anbieter vertraut werden: es kann nicht 
ausgeschlossen werden, dass die resultierenden Treffer anderweitig “gefiltert” (bei 
den grösseren Anbietern mithin: zensiert) sind. Dieses Problem stellt sich bei dem 
eigens generierten Evaluationskorpus im Gegenzug nicht. 

• Durch die Auswahl der konkreten Trainings daten wird ein Raum der überhaupt 
möglichen Selektoren aufgespannt, der naturgemäss durch die Anzahl der verfügbaren 
Types 18 beschränkt ist: es gibt Hinweise dafür, dass in der real existierenden Praxis 
der Massenüberwachung Selektoren ebenfalls manuell festgelegt werden können. Dies 
wird im Rahmen dieser Arbeit missachtet. 

• Die Trainingsdaten sollen nicht “Links-” und “Rechtsextremismus” repräsentieren, 
sondern zwei konkrete Gruppen, die diesen Spektren zuzuordnen sind; auf Grund des 
Fokus auf zwei konkrete Webseiten können diese Korpora entsprechend den Anspruch 
der Repräsentativität nicht erfüllen, für ein jeweils komplettes Spektrum zu stehen. 
Sehr wohl aber sind sie geeignet, zu testen, ob es damit gelingt weitere ähnliche 
Gruppen zu finden. Ganz allgemein gefasst: Es wird ein nur eingeschränkter Bereich 

16 Dies ist zum Beispiel zum Mitlesen von E-Mails relevant. 

17 Diese Einschränkung bedeutet im Gegensatz zur vorangegangenen Einschränkung, dass unter Einsatz von 
Überwachungsmöglichkeiten, die durchdringlicher sind, selbst im Rahmen von einer Volldatenüberwachung 
von “nur” zehn Tagen mehr linguistisch verwertbare Daten hätten gesammelt werden können. Das Sparse- 
Data-Problem würde geringer ausfallen. 

18 Gemeint ist die Menge der vorhandenen Wortoberflächen. 
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möglicher Überwachungskategorien erfasst. Bereiche etwa der diplomatischen oder 
Wirtschaftsspionage, die nachweislich als weitere Überwachungskategorien existieren 
und im globalen Ausmass betrieben werden, sind hiermit nicht abgedeckt. 

• Annahmen werden getroffen, wie Selektoren korpusbasiert (statistisch) und zu- 
dem linguistisch motiviert (durch Wortlisten zugeschriebener Bedeutung) zustande 
kommen müssten; es können auch andere Annahmen getroffen werden. Die drei 
Überwachungsmodelle stellen bloss Beispiele einfacher und komplexerer Verfahren 
zur Generierung von Selektoren dar: es sind nebst der Wahl anderer Modelle auch 
Abwandlungen der ausgewählten Modelle möglich. 

• Es werden auf inhaltlicher Ebene keine Filterstufen verwendet oder mögliche Negativ- 
Selektoren genutzt, um prohibitive Begriffskombinationen auszuschliessen, wie dies 
beim BND im Rahmen der GlO-Filterung geschehen sollte. 19 

• Eine Unterscheidung nach Metadaten und eigentlichen Inhaltsdaten wird nicht 
vorgenommen: alle Daten textueller Natur werden durchsucht. Entsprechend sind die 
resultierenden Treffer offene Ergebnisse, die nicht durch formale Suchbegriffe (wie 
IP-, E-Mail-Adressen oder Ähnlichem) beschränkt sind. 

Die Arbeit erhebt trotz aller Einschränkungen dennoch den Anspruch, geeignet zu sein, 
die Natur eines Teils der globalen Massenüberwachung plausibel darzulegen, wenn auch 
die konkret resultierenden Evaluationsergebnisse von Kapitel 4 - entsprechend den oben 
genannten Foki und Grenzen der Arbeit - kritisch zu hinterfragen sind. 


1.4 Aufbau 

Die Arbeit zeigt im Recherche-Teil von Kapitel 2 auf, was in Sachen Massenüberwachung 
und spezifisch computerlinguistisch möglich ist. Quellenmaterial ist überwachungsspezifis- 
che Forschung und Möglichkeiten und Praxis heutiger Überwachung, die beispielsweise 
durch die Enthüllungen Edward Snowdens bekannt geworden ist. 

Im praktischen und betont kritisch-illustrativen Teil von Kapitel 3 wird im Rahmen eines 
eigenen Überwachungssettings aufgezeigt, wie Massenüberwachung auf Basis von Such- 
begriffen (auch: Selektoren) funktionieren könnte. Drei Modelle werden beschrieben und 
dazu genutzt, in der Summe 140 Selektoren automatisch zu generieren, die dazu eingesetzt 
werden könnten, “extremistische” Treffer links- und rechtspolitischer Art zu erzeugen. 

Kapitel 4 widmet sich der manuellen Evaluation der drei Modelle: im Zuge dessen werden 
auch besondere True- oder False-Positives hervorgehoben, die durch zwei unabhängige 
Annotationen ermittelt wurden. Es wird damit der Versuch unternommen, die Natur der 
Massenüberwachung auf Basis von Selektoren aufzuzeigen. 

19 Vgl. Abschnitt 2.4.3. 1 
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Im Schlussteil von Kapitel 5 werden zunächst die resultierenden Treffer in ihrer Evaluation 
kritisch diskutiert und weitere Fragen allgemeiner und weitergehender Art aufgeworfen; 
die eingangs gestellten Forschungsfragen und Hypothesen werden - soweit möglich - sum- 
marisch beantwortet, plausibilisiert und hinterfragt; schliesslich wird die Arbeit mit einem 
Fazit, das den Erkenntnisgewinn synthetisiert, zu einem Ende geführt. 
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Fängt man etwas Interessantes mit seinem Leben an, sind die Informationen auf 
dem eigenen Computer irgendwie von Bedeutung oder geldwert für feindlich gesin- 
nte Mitmenschen oder Entitäten, dann muss man damit rechnen, auch gezielt 
digital angegriffen zu werden. Sei es als politischer Aktivist, recherchierender 
Journalist, Wissenschaftler, Medienberühmtheit, provokanter Künstler, Manager 
oder Politiker - sobald man im Besitz von Informationen ist, die für jemand 
anderen von Interesse sind, kann man ins Fadenkreuz geraten. Die Spannbreite 
reicht von intimen Fotos bis zu Kundenlisten oder technischen Planungsdoku- 
menten. Man muss sich klarmachen, dass sich in den letzten Jahren im Wind- 
schatten der finanziell potenten Geheimdienste ein professioneller Industriezweig 
herausgebildet hat, der das Hacken als einträgliches Geschäft betreibt. 

- Constanze Kurz, Frank Rieger, Harald Staun und Sascha Lobo 
am 12. Juli 2015 [59] 

Zunächst ist festzuhalten, dass die US-amerikanische National Security Agency NSA von 
der eigenen Regierung das Recht erhalten hat, nominell alle ausser vier Länder auszus- 
pähen, welche sind: Australien, Grossbritannien, Kanada und Neuseeland. Diese sind mit 
den USA zusammen Teil des Five Eyes-Verbundes FVEY, der eine globale Abhörmaschinerie 
betreibt. [73] 

Durch den Datenaustausch, den die EVEV-Staaten untereinander pflegen, kann über 
den Partnerumweg, der Datenverkehr der eigenen Bevölkerung dennoch überwacht werden, 
wie dies beispielsweise für das Vereinigte Königreich belegt ist. [76] 

In aller Regel wird der Ausbau der Überwachung mit der Gefahr vor Terrorismus be- 
gründet. Gemäss National Intelligence Priorities Framework NIPF ist dieser Bereich 
“Counterterrorism” oder “TERR” allerdings nur eines von 32 Themenfeldern, die geheimdi- 
enstlich relevant sind. [15][96, S.149] 

Weitere Überwachungsbereiche, die vermuten lassen, dass Geheimdienste nebst Sicherheits- 
vielmehr Machterhaltungs- und Wirtschaftsinstrument sind, eröffnen sich mit Beispielen 
der weiteren Bereiche, die bestehen: 

• Leadership Intentions (LEAD): Regierungsabsichten 
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• Economic and Financial Stability (ECFS): Ökonomische und finanzielle Stabilität 

• International Trade Policy (TRAD): Internationale Handelspolitik 

• Food Products and Security (FOOD): Nahrungsmittelprodukte und -Sicherheit 

• Democratization: Demokratisierung 

• Environment and Natural Ressources (ENVR): Umwelt und natürliche Ressourcen 

• Demographics (DEMG): Demografie 

• Health and Infectious Diseases (HLTH): Gesundheit und Infektionskrankheiten 

• Cyber (CYBR): Cyberspace / Internet 

In der geleakten “United States SIGINT System”-Liste von Januar 2007 werden weiterhin 
explizit Länder wie China, Deutschland, Frankreich, Indien, Israel, Japan, [Süd-]Korea 20 , 
Russland oder Schweden geführt. Diese seien sogenannter Signals Intelligence SIGINT zu 
unterziehen, weil sie gemäss der Überwachungsmission “Emerging Strategie Technologies” 
das Potenzial hätten, kritische Technologien zu entwickeln, welche sie in strategischer 
Hinsicht militärisch, ökonomisch oder auch politisch - gegenüber den USA - bevorteilen 
könnten. [80] 

Ein sehr deutlicher Hinweis, dass auch gewöhnliche Bürger konkretes Ziel geheimdi- 
enstlicher Aktivitäten sein können, bietet ein The Intercept- Artikel vom März 2014: 

The internal post - titled “I hunt sys admins” - makes clear that terrorists aren’t 
the only targets of such NSA attacks. Compromising a Systems administrator, the 
operative notes, makes it easier to get to other targets of interest, including any 
“government official that happens to be using the network some admin takes care 
of” 

Demnach besteht ein internes Dokument über die “Jagd” auf Systemadministratoren, das 
deutlich macht, dass über solche Personen auch der Zugang zu den eigentlich interessieren- 
den Zielen (im Beispiel: Behördenmitglieder) erfolgen kann, deren Netzwerk unter der 
Administration der konkret angegriffen Personen stehen. [28] 


2.1 Zu Wesen und Spielarten der Massenüberwachung 

2.1.1 Was ist Überwachung und spezifisch Massenüberwachung? 

Joachim Scharloth schildert in seinem Blog [102] eine weithin bekannte Überwachungssitua- 
tion, die durch ihre spürbare und unmittelbar Natur dazu beiträgt, dass sich normkonformes 


20 Es ist naheliegend, dass mit “Korea” Südkorea gemeint ist. 
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Verhalten einstellt - das Fliegen mit den bekannten Flughafenkontrollen: 

Mit dem Flugzeug zu reisen hat bei allen Vorzügen einen entscheidenden Nachteil: 
Keine andere Form des Reisens normiert die Passagiere so weitreichend wie 
eine Flugreise. Sie erlaubt den Reisenden nur eine bestimmte Menge Gepäck 
in vorgeschriebener Form, weist ihnen einen engen Raum zu, den sie auch 
nur zu ganz bestimmten Zwecken verlassen dürfen, zwingt auf visuelle Signale 
hin zum Anschnallen, zwingt zum Ausschalten von Geräten und - indem das 
Entertainment-Programm unterbrochen wird - zum Zuhören bei allen Ansagen. 

Und keine andere Form des Reisens kennt derlei Sanktionen, wenn man sich 
der Normierung widersetzt: abhängig vom Land können einem Raucher auf 
der Bordtoilette Strafen vom Bussgeld bis zur mehrmonatigen Gefängnisstrafe 
blühen. Die Annehmlichkeit der schnellen Überbrückung von Entfernungen zu 
einem noch erträglichen Preis wird also durch die Akzeptanz einer weitgehenden 
Normierung erkauft. 

Dieses treffende Beispiel erlaubt es, gut nachzuvollziehen, dass Überwachung - wenn sie 
spürbar ist - zu weniger abweichendem Verhalten führt. 

Entsprechend lässt sich das Gefühl von Überwachung auf dieser Basis nach Spürbarkeit in 
zumindest folgenden Dimensionen besser fassen: 

• Spürbarkeit der Überwachung auf Grund der Natur des Überwach ers (Mensch versus 
Maschine) 

• Spürbarkeit der Überwachung auf Grund körperlicher Nähe des Überwachers (Polizist 
im physischen versus Überwachungssoftware im virtuellen Raum) 

• (Gefühlter) Grad der Betroffenheit (Überwachung aller versus Überwachung Einzel- 
ner) 

Bezogen auf das Internet, insbesondere den da vorhandenen Möglichkeiten Kommunikation 
massenweise, unspürbar abzufangen und automatisiert auszuwerten, wird - werden diese 
drei Dimensionen zur Operationalisierung der Spürbar- oder Fühlbarkeit überwacht zu 
sein - beigezogen, rasch klar, dass auf Grund 

1. der maschinellen Natur der Überwachung im Netz; 

2. der nicht vorhandenen Körperlichkeit mangels der physischen Spürbarkeit der im 
Netz laufenden Überwachung und 

3. mangels der Erkennbarkeit überhaupt überwacht zu werden sowie der Beschwichti- 
gungen seitens der politischen Führung, bloss “Terroristen” würden gesucht, 

sich das Gefühl einstellen kann, eine Überwachung existiere - spürbar - nicht. 

Hinzu weist Scharloth auf den Begriff des “Filterns” hin, welchem oft die (politische) 
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Funktion zukommt, die Massenüberwachung zu verharmlosen: 

Gerne greift die Überwachungsapologetik auf den Begriff des “Filterns” zurück, 
um zu implizieren, dass nur ein geringer Teil des Materials angeschaut wird: 
unter Generalverdacht am Anfang aber steht alle Kommunikation. Eine ober- 
flächliche Analyse, welche nicht den Anspruch erhebt, den Gesamtsinn einer 
Kommunikation zu erfassen, sorgt dafür, dass Material (zur weitergehenden 
automatischen oder manuellen Analyse) zurückgehalten wird. 

Tatsächlich aber findet Überwachung nicht erst statt, wenn ein Text “gefiltert” wurde, 
sondern schon vorher - bei der Erfassung; hierbei verweist Scharloth auf ein Urteil des 
deutschen Bundesverwaltungsgericht von 1999, das zu ähnlichen Schlüssen kommt, wenn 
das Gericht es auch für haltbar hält, Massenüberwachung unter bestimmten Bedingungen 
zu betreiben. 

Massenüberwachung bezeichnet also eine Überwachungsform, die nicht zielgerichtet, son- 
dern verdachtsunabhängig und anlasslos erfolgt: sie spekuliert darauf, Verdächtigungen 
erst zu schaffen oder einen Anlass zur Verdachtsschöpfung erst noch zu begründen. 

In Reinform kann die uns interessierende digitale Massenüberwachung im Internet zudem 
nach zwei Foki und entsprechend zwei Methodologien erfolgen: 

• Inhaltsdaten: Es interessieren die Inhaltsdaten einer Kommunikation; der Verdacht 
soll auf Grund des Inhalts eines Kommunikationsvorgangs konstituiert werden. In- 
halte können beispielsweise Chat-Nachrichten, E-Mails, Webseiten-Inhalte oder herun- 
tergeladene PDF-Dateien sein. 

• Metadaten: Es interessieren die Metadaten der Kommunikation, das heisst der Ver- 
dacht soll sich nicht aus den Gegenständen selber, sondern dem Umstand deren 
Verbindung herleiten. Verbindungs daten können zum Beispiel Angaben zu Kommu- 
nikationspartner, aufgerufene Webseiten-URLs oder Telefon-Nummern sein. 

Im Rahmen dieser Arbeit interessiert die Form der Massenüberwachung, die auf Inhalts- 
daten abzielt. Eine Arbeit, die sich kritisch mit der Massenauswertung von Metadaten 
beschäftigt, hat Daniel Mossbrucker kürzlich vorgelegt: sie geht insbesondere der Frage 
nach, inwiefern der Quellenschutz bei journalistischen Recherchen noch gewahrt werden 
kann, wenn ein Land alle Metadaten aller Kommunikationsteilnehmer speichert. Er zeigt 
auf, dass die Verfügbarkeit von Informationen über die “blossen” Umstände von Kommu- 
nikation bereits ausreicht, den journalistischen Quellenschutz auszuhebeln. Dies gilt selbst 
dann, wenn die gespeicherten Metadaten für nur wenige Wochen zugänglich sind. [72] 
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2.1.2 Welche Ansatzpunkte zur digitalen Überwachung gibt es? 

Warum können wir nicht alle Signale sammeln, jederzeit? 

- Keith Brian Alexander 21 , 2008 [96, S.120] 

In nicht abschliessender Weise werden hier Angriffsvektoren aufgezeigt, wie sie aus dem 
Gebiet der IT-Sicherheit entstammen und die eingesetzt werden können, um an Daten 
heranzukommen, welche in der Folge linguistisch und maschinell verwertet werden können. 

Wie im Abschnitt 2.1.2 dargelegt wird, bedienen sich insbesondere global operierende 
Geheimdienste potenter Staaten aller nur denkbaren Angriffsvektoren und übertreffen in 
der Breite und Tiefe ihrer Möglichkeiten bei weitem kriminell organisierte Gruppen oder 
aktivistische Hackerkreise, die aus politischen Motiven agieren. 

2. 1 .2. 1 Überwachung von Datenströmen 

In “klassischer” Hinsicht lassen sich Datenströme abfangen, speichern, scannen und 
auswerten, wo Computer oder Peripheriegeräte 22 über Funk- oder Kabelverbindungen 
miteinander zu einem Netzwerk verknüpft sind und Daten miteinander austauschen. 

Ohne auf Spezifika häuslicher, institutioneller, nationaler oder globaler Netzwerke einzuge- 
hen, sei abstrakt festgehalten, dass Signale zwischen Computern an folgenden Stellen 
abgefangen werden können: 

(a) Auf lokaler Ebene zuhause, Institutionen, im Staat oder auch im Rahmen lokal an- 
mutender, physisch allerdings über unsichere Verbindungen aufgespannter Virtuelle 
Private Netzwerke (VPN), die von aussen als verschlüsselte Datenströme erkannt 
werden. 23 

(b) Auf Ebene der Zugangsprovider, welche Privaten, Institutionen oder Staaten den 
Zugang über Kabel- oder Funkverbindungen zum Internet ermöglichen. 

(c) Auf nationaler oder globaler Ebene zwischen Providern 24 aller Art. 

(d) Auf globaler Ebene bei Überwachung von transnationalen Glasfaserleitungen, Un- 
terseekabeln oder Satellitenverbindungen oder auch sogenannten Internet Exchange 
Points, welche eigentliche Internetschaltstellen zwischen Content Delivery Networks 
CDNs und Internetprovider darstellen. 


21 Direktor der NSA von 2005-2014 

11 Das können Mäuse, Tastaturen, Drucker und andere Geräte sein, die (als peers) an anderen Endgeräten oder 
(als Clients) an Serversystemen angeschlossen sind. 

“ * * 3 Zumindest von Innen ist Überwachung und Kontrolle des Netzwerkes seitens der VPN-kontrollierenden 
Instanz möglich: es besteht die Sicht vergleichbar jener eines Zugangsproviders. 

3 'Damit sind auch Content-Provider wie E-Mail-Dienstanbieter, Social-Media-Plattformen usw. gemeint. 
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2. 1.2.2 Ausleitung Daten Endgerät (an beiden Enden) 

Unter der Bedingung, dass entweder Soft- oder Hardware von Anfang an unterwandert 
beziehungsweise verwanzt ist oder sich durch Sicherheitslücken zumindest unter Kontrolle 
bringen lässt, können die interessierenden Daten für eine Überwachung direkt an der 
Datenquelle beziehungsweise dem unmittelbaren Datenziel ausgeleitet werden. 

Endgeräte wie Notebooks, Smartphones, Smart-TV- Geräte oder selbst - nicht als vernetzt 
intendierte Geräte wie - Wasserkocher 25 können von Anfang an mit Malware der Unterart 
Spyware ausgestattet sein, und den Internetverkehr insgesamt oder in den gewünschten 
Datensätzen an interessierende Dritte auszuleiten. 

In Fällen, wo ein Endgerät noch nicht infiziert ist, können Methoden wie Deep-Packet- 
Injection eingesetzt werden, um im Rahmen eines eingehenden Verkehrs ein Gerät zu 
infiltrieren, indem der vom Gerät empfangene Datenstrom durch Malware ergänzt wird - 
in einer Form, dass auf dem Zielsystem eine Sicherheitslücke für die Installation derselben 
ausgenutzt wird. 26 Ist der End-User die eigentliche Schwachstelle im zu überwachenden 
Komplex, können “klassische” Angriffsverfahren wie der Versand von syteminfiltrieren- 
den Mailanhängen oder Drive-By-Attacken eingesetzt werden, wo dem Opfer ein Anreiz 27 
gegeben wird, einen Anhang zu öffnen oder auf einen Link zu klicken. 28 

2. 1.2.3 Ausleitung Daten Servergerät (bei Client-Server-Modellen) 

Ebenfalls zu beachten ist die Möglichkeit der massenweisen Ausleitung von Daten von 
Serversystemen (gerade von grossen Anbietern) wie das von Edward Snowden enthüllte 
PR/SM-Programm der FVEY [96, S.127] nahelegt. Hierbei wird ein Datenabfluss bei 
Content-Anbietern organisiert: Sofern die Daten für Anbieter wie Google oder Facebook 
selber lesbar sind - was der Regelfall ist -, so muss es nicht einmal einen Unterschied 
machen, ob CA-basierte Verschlüsselung wie TLS (für HTTPS) benutzt wird, weil der 
Angriffspunkt beim Anbieter direkt und nicht bei der Transportverbindung zum Benutzer 
hin hegt. 


25 Es gibt dokumentierte Fälle von Haushaltsgeräten, die (unnötigerweise) mit WLAN-Technologie ausgestattet 
sind, um automatisiert Angriffe auf ansprechbare Access Points auszuführen und (nach Möglichkeit) Verkehr 
erfolgreich angegriffener Geräte auszuleiten. Vgl. [110]. 

26 Solche “Injektionen” können beispielsweise im Rahmen eines Systemupdates oder beim Herunterladen einer 
Datei erfolgen. Der Angriff erfolgt in der Regel völlig unbemerkt und löst beim End-User keinen Verdacht 
aus. 

2 'Es können beispielsweise öffentliche Prohlmeldungen auf Social-Media-Plattformen analysiert werden, um 
plausible Nachrichten an einen Benutzer zu präparieren. 

28 Durch die Erforderlichkeit der User-Interaktion handelt es sich im letzten Fall um einen Angriff der Art des 
Social-Engineering 
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2.1.3 Beispiele: Fälle und Folgen von Verdächtigungen auf linguistischer Basis 

Donnez-moi deux lignes de la main d’un komme, et j’y trouverai de quoi suffire ä 
sa condamnation. 

— Armand Jean du Plessis de Richelieu 29 

In diesem Abschnitt werden drei Fälle geschildert, wo Personen auf Grund linguistischer 
Merkmale in Texten, die sie verfasst haben (sollen), für Taten verdächtigt oder gar verurteilt 
wurden. 

2. 1.3.1 Schweiz: “Rütli-Bomber” ungrammatikalisch in seiner Rache 

Am 1. Januar 2007 detonierte an der Jahresfeier der Schweizerischen Eidgenossenschaft 
auf der Rütli-Wiese ein selbstgebauter Klein-Sprengsatz: niemand wurde verletzt. Gle- 
ichzeitig wurden im unmittelbaren zeitlichen Umfeld diverse Briefkästen von Mitgliedern 
der “Rütli-Kommission” gesprengt. Auf Grund eines anonymen Hinweises gegenüber der 
Kantonspolizei Aargau und einer Gefahreneinstufung sowie Informationen seitens des 
damaligen Schweizer Inlandsgeheimdienstes DAP kam es zu einer massiven Überwachung 
einer Person, die landesweit als “Rütli-Bomber” bekannt wurde. Die Überwachungen liefen 
trotz ihres invasiven Charakters 30 ins Leere. Schliesslich wollte die Schweizer Bundesan- 
waltschaft BA die Quelle der ursprünglichen Information darüber, dass es sich bei der als 
“Rütli-Bomber” verdächtigten Person tatsächlich um die gesuchte Person handelt. Sie stiess 
beim Geheimdienst auf taube Ohren. Die BA wandte sich an die Schweizer Regierung: 
diese fiel den (politischen) Entscheid, die Quelle sei zu schützen. Damit musste die BA das 
Verfahren mangels auch nur stichhaltiger Beweise einstellen. 

Dem fälschlich Verdächtigten wurde das Leben offensichtlich zerstört: er hat den Kon- 
takt zu Familie, Kind und Freunde verloren. In der Folge soll er sich bei Personen gerächt 
haben, die für seine Lebenssituation verantwortlich sein könnten und wurde dafür belangt. 

Auf Grund von Drohbriefen, die er formuliert haben soll, verurteilte [116] ihn die Staatsan- 
walt auf Basis grammatikalischer und syntaktischer Merkmale, die - linguistisch betrachtet 
- einen wenig spezifischen Eindruck vermitteln: 

Der zuständige Staatsanwalt sah den nicht geständigen Elektromonteur als 
überführt an. Auch wegen den grammatikalischen Mängeln des Beschuldigten, 
der in seinen Schreiben immer wieder durch die gleichen Kommafehler und einen 
notorisch falsch gewählten Akkusativ aufgefallen war. 

■^'Zumindest wird ihm dieses Zitat zugeschrieben; vgl. französischsprachige Wikipedia (2015). 

Online: https : //f r . wikipedia . org/ w / index . php?title=Armand_Jean_du_Plessis_de_Riche 

lieu&oldid=1200752 82#Citations_et_maximes_c . C3 . A91 . C3 . A8bres 

(Abruf: 3. November 2015) 

30 Zum Beispiel wurde ohne gesetzliche Grundlage ein “Staatstrojaner” eingesetzt. 
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Der “Rütlibomber” selber beteuerte seine Unschuld. 

2. 1.3.2 Deutschland: Andrej Holm als Soziologe zum “Terroristen” 

Bei Andrej Holm handelt es sich um einen Soziologen, der unter anderem zu Phänomenen 
der Stadtaufwertung (in der Soziologie auch: Gentrification) forscht. 2006 wurden gegen 
ihn und weitere Verdächtige Ermittlungen wegen “Mitgliedschaft in einer terroristischen 
Vereinigung” nach §129 des deutschen Strafgesetzbuches StGB aufgenommen: im Fokus 
standen Untersuchungen zum Zusammenhang “militante gruppe” oder “mg”, die gemäss 
eigenen Mitteilungen für mehrere Brandanschläge im Grossraum Berlin und Brandenburg 
verantwortlich zeichnete. Die Ermittlungen führten nach einer rund einjährigen invasiven 
Überwachung zur isolativen Untersuchungshaft. Als ein wichtiges Verdachtsmoment führte 
die Bundesanwaltschaft Begriffsverwendungen in Texten sowohl der “mg” als auch solchen 
(wissenschaftlichen) von Andrej Holm an, von denen er viele offenbar - öffentlich auffindbar 
- publizierte. 

Der Verdacht wurde mittels GoogZe-Suche [118] auf Basis von Einzelworten oder Aus- 
drücken begründet, von denen folgende öffentlich dokumentiert [26, S.69] sind: 

(1) Nominal: gentrification, prekarisierung, reproduktion 

(2) Verbal: implodieren 

(3) Phrasal: politische praxis 

(4) Adjektivistisch: drakonisch, marxistisch-leninistisch 

Weitere Verdachtsmomente (ausser linguistische oder solche der “intellektuellen Urheber- 
schaft”) waren zwar auch vorhanden, allerdings sind diese gemäss einem Offenen Brief mit 
Unterschrift internationaler Forscherkreisen zur Unterstützung von Andrej Holm genauso 
fragwürdiger Basis: so wurde eine “Kontaktschuld” wegen Freundschaftsbeziehungen oder 
Adressbucheinträgen konstruiert oder “konspiratives Verhalten” festgestellt, weil Andrej 
Holm und andere Verdächtige sich teilweise ohne Mobilgeräte trafen. [25] 

Unter dem internationalen Protest wurde Andrej Holm nach wenigen Wochen aus der Unter- 
suchungshaft entlassen, doch erst 2010 für unschuldig befunden. Die massive Überwachung 
lief in den Jahren dazwischen (offen) weiter, wie seine Lebenspartnerin Anne Roth in einem 
Blogpost zur “Innenansicht einer Terrorismus-Ermittlung” darlegt. [97] 
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2. 1.3.3 USA: “Unabomber” Theodore Kaczynski und seine Phrase 

Theodore Kaczynski (auch: “Unabomber” 31 ) ist ein grün-anarchistischer Mathematiker, 
der die USA über Jahrzehnte mit einer landesweiten Briefbombenkampagne auf Trab 
hielt. Sein Anliegen war, die technologische Entwicklung dadurch aufzuhalten, dass die 
Exponenten derselben angegriffen werden. In einen längeren Text legte er seine Gründe 
dafür dar. Dieser Text wurde ihm aber zum Verhängnis, weil es dem FBI gelang, durch 
einen Tipp seitens David Kaczinskys 32 und Methoden aus der forensischen Linguistik der 
Autorenidentifikation, auf ihn zu schliessen. 

Das US-amerikanische National Museum of Crime & Punishment [85] erwähnt eine bes- 
timmte Phrase, die dem “Unabomber” eigen gewesen sein soll: 

[T]he serial bomber sent a very long manifesto called Industrial Society and its 
Future to several publications demanding it be published. When they obeyed, 
a man named David Kaczynski read the manifesto and found it disturbingly 
familiär; the word choices and philosophy resembled those ofhis brother Theodore. 

There were particular phrases David recognized as Ted’s, including a reversal of 
the common saying “have your cake and eat it too;” Ted preferred to say “eat your 
cake and have it too.” These were unique enough to be instantly recognizable, but 
were not the only indicators. 

Andererseits wurden auch andere linguistische Merkmale - wie Wortfrequenzen - beigezo- 
gen, um die Verdächtigung zu plausibilisieren, die erforderlich war, um mittels richterlichen 
Beschluss einen Zugriff auf Theodore Kaczinsky vollziehen zu können. Dieser bestätigte 
seine Urheberschaft. 


2.2 Computerlinguistische Forschung zur Ausübung von 
Massenüberwachung 

Diese Sektion fokussiert auf Forschung, die im Bereich der Computerlinguistik durchgeführt 
wurde, mit dem offenen Zweck deren Ergebnisse für Zwecke der Massenüberwachung 
einzusetzen. Sie geht eingangs auf die Rolle der Computerlinguistik hierfür ein. 


2.2. 1 Rolle der Computerlinguistik für die Massenüberwachung 

Bei der Computerlinguistik handelt es sich um ein interdisziplinäres Forschungsfeld, das 
sich zwischen (allgemeiner) Sprachwissenschaft und Informatik bewegt. Gemäss dem 


31 Bezeichnung im Rahmen der FBI-Operation UNABOMB: University and Airport Bomber, weil entsprechende 
Vertreter Ziel von Anschlägen waren. 

32 Bruder von Theodore Kaczinsky 
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Institut für Computerlinguistik der Universität Zürich untersucht Computerlinguistik 

• “wie die menschliche Sprache als Mittel zur Übermittlung, Speicherung und Verar- 
beitung von Information verwendet wird, und 

• wie man diese Prozesse auf dem Computer modellieren und für konkrete Anwendungen 
nutzbar machen kann.” 

Zudem wird demnach von Sprachtechnologie gesprochen, “fwjenn die praktische Entwick- 
lung von Werkzeugen interessiert, die in verschiedenen Phasen der automatischen Verar- 
beitung natürlicher Sprachen eingesetzt werden [122] 

Weder der Computerlinguistik noch Sprachtechnologie ist Massenüberwachung inhärent: 
allerdings reichen ihre Ursprünge auf die Anfänge der Computerisierung zurück, wo ins- 
besondere die US-Amerikaner russische Botschaften aus Forschung und Militär ins En- 
glische zu übersetzen versuchten. Am Anfang taten sie das, auf einer Wort-zu- Wort-Basis, 
wobei rasch erkannt wurde, dass dies angesichts der unterschiedlichen grammatikalischen 
Natur der Sprache nicht gut funktionierte. 

Beispiele von Bereichen der Computerlinguistik, die der Massenüberwachung Zuspielen 
und wo Einsatzzwecke für die Massenüberwachung sichtbar sind, können auf Basis von 
Forschung, die in der EU ( INDECT ) oder USA (NSA) betrieben wurde, beispielhaft sein: 

• Named Entity Recognition NER 

• Text Mining TM 

• Relation Extraction RE 

• Text Summarization TS 

• Topic Analysis TA 

• Machine Translation MT 

In einem Vortrag am 30. Chaos Communication Congress zeigt Joachim Scharloth ex- 
emplarisch auf, wie “politischer Extremismus” diverser in Deutschland populärer Blogs 
gemessen werden kann. Einerseits werden dafür Wortkollokationen eingesetzt, dann aber 
auch Verdachtsmomente in der Sprache auf Grund von Gradpartikeln ausgemacht, wie sie 
im Überwachungsmodell 2 dieser Arbeit ebenfalls eingesetzt werden. Durch seinen Vortrag 
postuliert er, dass Geheimdienste solche und ähnliche Verfahren sicherlich einsetzen, um 
ein Monitoring von “politischem Extremismus” zu betreiben. [40, 99, 100, 101, 107] 

In den folgenden Abschnitten soll aufgezeigt werden, dass der Stand der Technik in der 
Computerlinguistik genutzt wird, um ihn für Zwecke der Massenüberwachung einzusetzen 
oder auf Basis bestehender Erkenntnisse neue CL-Modelle zu erstellen, die spezifisch dafür 
entwickelt werden. 
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2.2.2 EU: IN DECT- Projekt 

“Intelligent information System supporting observation, searching and detection for Secu- 
rity of citizens in urban environment” INDECT bezeichnet ein Forschungsprojekt, das im 
Rahmen des 7. Forschungsrahmenprogramms der Europäischen Union EU von 2009 bis 
2013 erforscht wurde. Für den angegebenen und übergeordneten Zweck, die Sicherheit aller 
Bürger in der EU zu erhöhen, wurden in neun Work-Packages 33 zahlreiche Methoden - auch 
der Bild-, Biometrie- und Videoanalyse - erforscht und evaluiert, die in eine umfassende und 
systemische Plattform der Massenüberwachung münden könnten: die INDECT- Plattform. 
Jedes Work-Package hat andere Schwerpunkte, wobei sich insbesondere das Work-Package 
4 mit der Erforschung von Methoden aus der Computerlinguistik beschäftigt. [65] 


Erforschte Methoden, die als genuin computerlinguistisch betrachtet werden können, sind 
in der Tabelle 2.1 zusammengefasst. 


Gebiet 

Neutraler Zweck 

INDECT-Zweck 

INDECT-Referenz 

Named Entity 

Recognition NER / 
Relation Extraction 
RE 

Erfassung bestimmter 

namentlicher Entitäten 
NE und Herstellen von 
Beziehungen zwischen 
diesen 

Finden von Verdächtige 
(beispielsweise "Hooligan- 
ismus" oder "Terrorismus") 
in Chats oder Foren 

Klapaftis (47, 50), 
Klapaftis, loannis R 
and Nagy, Zoltän 
and Johanning, Nils 
(52), Klapaftis (49) 

Information Re- 

trieval IE / Pattern 
Matching / Text 
Mining TM 

Suchstrategien nach Rele- 
vanz (gegebenenfalls mit 
spezifischen sprachlichen 
Suchmustern) 

Finden von verdächtigen 
Inhalten im Web ("Drogen- 
handel", "Waffenhandel", 
"terroristische" Aktivitäten 
und Rekrutierung) 

Dorosz et al. 

(17), Michat 

und Lubaszewski 
(70), Dorosz 

(16), Jung Pandey 
und Dorosz 

(43), Pandey und 
Dorosz (91), Dorosz 
et al, (18), Korzycki 
und Lubaszewski 
(55), Pandey (88) 

Machine Learning 
ML 

Erkennung von Regelmäs- 
sigkeiten in Daten; Tref- 
fen von Voraussagen; Kat- 
egorisierung 

Erkennung von 

Verdächtige auf Grund 
ihres sprachlichen Aus- 
drucks (Profilierung nach 
Verhalten) 

Klapaftis (48), Kla- 
paftis und Pandey 
(51), Pandey (89) 


Table 2.1: Übersicht INDECT-Forschung: Methoden der Computerlinguistik 


Weiterhin sind auch Forschungsergebnisse vorhanden, wo computerlinguistisches Wissen 
im Zusammenhang mit Erkenntnissen anderer Disziplinen zusammenwirkt. Wenn es 
beispielsweise darum geht 

• Personen auf Grund auditiver Merkmale nach Geschlecht, Alter oder nach ihrer 
emotionalen Verfassung hin zu erfassen und zu profilieren, indem beispielsweise 
festgestellt wird, dass ihr Stottern ein Ausdruck von Nervosität ist; [92] 


33 Das letzte Work-Package besteht aus Arbeiten der Evaluation vorangegangener Forschung. 
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• eine Ontologie aufzubauen, die es erlaubt, die Welt formal zu beschreiben, und damit 
regel- und datenbasiert Handlungsstrategien für Polizei, Bahnverkehr und andere 
Anspruchsgruppen zu ermöglichen, wenn es zu Krisensituationen kommt; [117] 

• oder Systeme zu betreiben, wo User-Generated-Content UGC in strukturierter und 
unstrukturierter Form aufgenommen werden kann, und die Verwaltung und der Abruf 
dieses (natürlichsprachlichen) Wissens zu organisieren sind. [61, 90] 

Im Zusammenhang mit dieser Arbeit sind auch Forschungsergebnisse interessant, welche 
konkret mit der Überwachung von Datenströmen zu tun haben und was daraus alles gewon- 
nen werden kann. 

So wird in einem Paper mittels Xplico 34 und Techniken der Deep-Packet-Inspection, ver- 
dächtiges Verhalten beim Websurfen entdeckt: konkret werden Bilder im Internetverkehr 
mitgeschnitten und mit solchen einer zentralen Datenbank, die wiederum als verdächtig 
markierte Bilder enthält, verglichen. Dies resultiert in einem Alert, der schliesslich von 
einem Agenten manuell begutachtet werden kann. Als Vergleichsbasis kommen Hashsum- 
men zum Einsatz. 35 [27] 

Es werden zudem weitere Gebiete erforscht, wo Computerlinguistik zumindest am Rande 
eine Rolle spielen kann: 

• Die Analyse der Zugehörigkeit von Personen zu Gruppen in Blogs. 36 [29] 

• Die agenten-basierte Modellierung von Gesellschaft wird betrieben, was makroskopisch 
betrachtet, viel mit Modellen aus der Informatik, Soziologie oder Mathematik zu tun 
hat, auf individueller Ebene (von Sprechakten) allerdings computerlinguistisches 
Wissen erfordern kann. [56] 

• Die Handhabe der verschiedenen Dateiformaten, die im INDECT-Projekt zusammen- 
laufen, wird erforscht. [128] 


2.2.3 USA: HLT-Programm der NSA 

Im Rahmen des Human Language Technology HLT -Programmes der NSA wird Sprachtech- 
nologie entworfen, die direkt zum Zweck der Massenüberwachung eingesetzt wird. Zur 
Verfügung stehen jährlich dutzende Millionen USD, welche dieser ATSA-eigenen Forschung 
zufallen. [78] 

Im Mai 2015 wurden im The Intercept NSA-Dokumente veröffentlicht [24], welche aufzeigen, 

34 Ein Werkzeug zur Überwachung von Datenströmen. 

35 Das ermöglicht einerseits zwar einen effizienten Vergleich, andererseits funktioniert das bei (leicht) verän- 
derten Bildern nicht zuverlässig, weil sich die Hashsummen grundlegend unterscheiden. 

36 Hier können Metadaten der Kommunikation eine wichtige Rolle spielen, wie sie im Fokus der Arbeit von 
Daniel Mossbrucker stehen. [72] 
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dass Speech-To-Text STT ein Gebiet ist, das die NSA bearbeitet; über die transkribierten 
Daten soll sodann extensive Suche auf Basis von Keywords 37 erfolgen, wenn auch die dafür 
erforderliche “perfekte Transkription” aus den mitgeschnittenen Tonsignalen als Basis 
dafür, auch bei den Gehemdiensten nicht gelöst ist: 

Though perfect transcription of natural conversation apparently remains the 
Intelligence Community’s “holy grail” , the Snowden documents describe extensive 
use of keyword searching as well as Computer programs designed to analyze and 
“extract” the content ofvoice conversations, and even use sophisticated algorithms 
to flag conversations ofinterest. 

Für diesen Bereich der Voice-Kommunikation besteht konkret ein Programm namens 
RHINEHART, das es erlaubt, Transkriptionen gesprochener Sprache durchsuchbar zu 
machen. [119] 

Besonders interessant erscheint das mitveröffentlichte “Classification Guide”-Dokument, 
das zur Einstufung der HLT-Modelle der NSA dient. Darin ist sichtbar, dass der Um- 
stand, dass die NSA sprachtechnologische Modelle entwickelt zwar nicht geheim ist, die 
konkreten Modelle allerdings schon: damit wird verhindert, dass Personen wissen können, 
nach welchen sprachlichen Auffälligkeiten oder Mustern die NSA genau sucht. Im fremd- 
sprachlichen Bereich scheint ein Schwerpunkt auf die Analyse von arabisch-, doch auch 
spanischsprachigen Inhalten zu hegen. Die spanischsprachigen Modelle sollen sich in den 
letzten Jahren stark verbessert haben. [79, 84] 

In Folien [77] des “Center for Content Extraction” wird ein STAIRS genanntes Programm 
erwähnt, das in folgenden Schritten funktioniert: 

1. Mittels inhaltlicher Selektoren wird verdächtiger Text ausgewählt. 

2. Es erfolgt eine Übersetzung auf Basis eines “Glossars”. 

3. In Wikis festgehaltenes Wissen wird beigezogen, um das gefundene Material (seman- 
tisch) einzuordnen. 

2.2.4 USA: NSA-Patente mit Computerlinguistik-Bezug 

Im Rahmen von Recherchen von NSA-Patenten, welche computerlinguistisch relevant und 
für Massenüberwachung geeignet sind, wurden 13 Patente, die zwischen 1995 und 2013 
akzeptiert wurden, gefunden. 38 

Sie betreffen zumindest die folgenden Gebiete: 


37 Soft-Selektoren 

38 Ein Anspruch auf Vollständigkeit besteht nicht. 
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• Methoden des Information Retrieval IE oder der Datenbanksuche 39 

• Generierung von Selektoren als n-gramm-Muster, “Keywords”, “index terms” (Wortkom- 
binationen möglich) und ähnlichen Bezeichnungen (aus kontinuierlichen Textströ- 
men 40 ) 41 

• Methoden zur automatischen Textzusammenfassung 42 , teilweise unter Einsatz von 
Topic Analysis TA 43 

• Methoden der Topic Analysis TA 44 

• Methoden der Optical Character Recognition OCR 45 

• Methoden der Machine Translation MT 46 

• Methoden, sprachliche (Voice-)Kommunikation zu visualisieren 47 

Zahlreiche der Technologien, welche die NSA patentiert hat, stellt sie im Rahmen eines Tech- 
nology Transfer Programs TPP interessierten Kreisen für die Anwendung zur Verfügung, 
sofern diese als Lizenznehmer akzeptiert werden und sich verpflichten, Geheimhaltung 
über die Technologie und dem Einsatz des jeweiligen Produkts zu wahren. [83] 


2.3 Im Fokus: Sprachtechnologische Produkte zur 
Massenüberwachung 

In diesem Teil der Arbeit wird auf zwei sprachtechnologische Produkte fokussiert, die - 
dokumentiert - dafür existieren und angepriesen werden, konkret auf natürlichsprachlicher 
Basis Massenüberwachung durchzuführen. 48 

2.3.1 Snowden-Enthüllungen: XKeyscore 

XKey score (im Folgenden XKS ) ist eine mächtige Suchmaschine, die weit über die Fähigkeiten 
von bekannten Websuchmaschinen 49 hinaus, dafür genutzt werden kann, insbesondere 


39 Vgl. im Anhang die Abstracts B.l, B.3, B.9, B.10. 

40 Engl. “continuous text streams” 

41 Vgl. im Anhang die Abstracts B.2, B.3, B.4 und B.5. 

42 Engl. Text Summarization TS 

43 Vgl. im Anhang die Abstracts B.6 und B.7. 

44 Vgl. im Anhang den Abstract B.ll. 

45 Vgl. im Anhang den Abstract B.8. 

46 Vgl. im Anhang den Abstract B.12. 

47 Vgl. im Anhang den Abstract B.13. 

48 Auch wenn sie über weitere Analysefähigkeiten verfügen, die nicht aus der Computerlinguistik kommen. 
49 Wie sie für die Evaluation im Kapitel 4 eingesetzt werden. 
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private Kommunikationsströme und -datenbestände, die weltweit abgefangen und zuge- 
führt wurden, mit (komplexen) Selektoren und sogenannten “fingerprints” zu durchsuchen. 
Letztere sind insbesondere Filter für bestimmte Dienste. Die durchsuchbaren “Korpora” 
werden aus restlos allen Quellen, wie sie unter 2.1.2 beschrieben werden, aufgebaut. 

Zugriff auf die weltweit verteilt arbeitenden XKS-Systeme haben Geheimdienste aus dem 
FVEY -Verbund, gemäss Medienberichten und Ergebnissen aus dem NS AUA aber auch 
andere (bis anhin enge) Partnerdienste wie der deutsche Auslandsgeheimdienst BND - 
seit 2007. Zudem gibt es seit August 2015 Belege dafür, dass XKS auch beim deutschen 
Inlandsgeheimdienst Bundesamt für Verfassungsschutz BfV mit Codename Poseidon im 
Einsatz ist. [3] 

XKS wird in der FAZ [57] wie folgt charakterisiert: 

Auch in der vergangenen Woche kamen wieder neue Details ans Licht darüber, wie 
mit dem schon bekannten NSA-Programm XKeyscore private und geschäftliche 
Daten zur Analyse weiterverarbeitet werden. Denn nach wie vor durchforsten und 
sammeln die mehr als 700 über die Welt verteilten XKeyscore-Server unaufhör- 
lich neues Material: So landen jeden Tag Hunderttausende Sprach- und Text- 
nachrichten, alle Arten von E-Mail- Anhängen, Bilder aus Webcams, Skype- 
Anrufe oder Passwörter in den NSA-Datenbanken und werden in den wach- 
senden Datenhalden prozessiert. Die Grössenordnung der Sammlung musste 
nochmals noch oben korrigiert werden. Hinzu kommt die Erkenntnis, dass die 
Hacking-Operationen in industriellem Massstab konzeptioniert, durchgeführt 
und ausgewertet werden. 

Am 1. Juli 2015 wurden im The Intercept [66] zahlreiche Folien mit Bezug zu XKS veröf- 
fentlicht und die Fähigkeiten von XKS noch einmal rekapituliert. In einer Auswahl sind 
folgende Einsatzzwecke von XKS dokumentiert: 

• Dank dem britischen Tempora- Programm, das Daten aus Unterseekabeln vor der 
britischen Küste abfängt und speichert, kann XKS dazu genutzt werden, mindestens 
über drei Tage in Inhalts- und 30 Tage in Metadaten zu suchen, die in Europa ein- 
und ausgehen. 

• Besucher “extremistischer” Webseiten können erkannt und mit all ihren Telekommu- 
nikationsmerkmalen überwacht werden. 

• Techniken zur Extraktion von Telefon-Nummern oder anderen Telekommunikations- 
merkmalen, die der Form nach Metadaten sind, und als formale Selektoren (später) 
eingesetzt werden können, werden geschildert. 

• Ein Projekt, um Akteure in Webforen 50 zu beobachten und ihre Fähigkeiten zu er- 
fassen, wird beispielhaft erwähnt. 

50 Im Beispiel: Hacker- Webforen 
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• Für sogenannte Tailored Access Operations TAO können “fingerprints” eingesetzt 
werden, die es erlauben, vulnerable Computersysteme im Internet zu finden, um sie 
als zusätzlich durchsuchbare Datenquellen nutzbar zu machen. Dafür werden diese 
im Rahmen von TAO-Operationen angegriffen und “gehackt”. 

• Der HTTP-Traffic in Datenströmen (oder analog auch der anderer Protokolle) kann 
minutiös analysiert werden: so kann beispielsewise festgestellt werden, welche Web- 
browserkennungen genau im Einsatz sind oder wie ein Webseitenbesucher über Links 
im Web navigiert. Das erlaubt einerseits die weitergehende Proülierung von Webseit- 
enbesuchern, allerdings auch Angriffe auf den beobachteten Akteur auszuführen. 

• Die diversen Typen von Selektoren und wie sie eingesetzt werden können, werden 
illustriert. Spezifisch wird auch kontextsensitive Suche gezeigt, die ohne Strong- 
Selektoren auskommt, wo inhaltliche Suchbegriffe eingesetzt werden, wie sie im 
praktischen Teil dieser Arbeit im Fokus stehen. 

Nutzt man die AKS-Syntax nicht korrekt, können schnell falsche Personen in den Fokus 
geraten; zudem können ganze IP-Ranges abgescannt werden, wie im “Unoffical XKS User 
Guide” geschildert wird. [82, S.24] 


2.3.2 WikiLeaks-Publikation: Search & Detect 

Im Rahmen der The Spy Fz'Ze,s -Veröffentlichungen 51 von WikiLeaks kam es zur Publikation 
zahlreicher Materialien, welche vor allem aufzeigen, dass auch in der Privatwirtschaft eine 
Fülle an fertigen Produkten existiert, um im grossen Massstab eine Massenüberwachung 
von Kommunikation zu betreiben. 

Besondere Aufmerksamkeit und hier im Fokus der Darstellungen verdient das sprachtech- 
nologische Produkt Scan & Target der gleichnamigen Firma, das in Frankreich hergesteht 
wurde. 52 

Das Produkt verspricht sowohl Social-Media, als auch Foren, Blogs, E-Mails und IM- 
Dienste in Echtzeit und multilingual 53 durchsuchen zu können sowie auf Basis von erkan- 
nten Mustern Alarmierungsfunktionen anzubieten. Unter den Kunden figurieren pri- 
vatwirtschaftliche Akteure wie L’Oreal oder IKEA - ohne allerdings konkret zu werden, 
wie diese Unternehmen diese Sprachtechnologie genau nutzen. Interessanter ist sodann 
das Angebot auch für den Geheimdienstbereich der “intelligence” sowie Strafverfolgungs- 


B1 WikiLeaks (2011). The Spy Files. 

URL https : / /wikileaks . org/ the-spyf iles . html. Abruf: 13. November 2015. 

52 Scan & Target (2011). Extracting intelligence from multilingual SMS, IM, e-mails. . . 

Online: https://wikileaks.org/ spy f iles / f iles/ 0 /7 1_2 0 1 11 0- ISS- IAD-T5- SCAN_AND_TARGET . 
pdf 

(Abruf: 13. November 2015) 

B3 Unterstützt werden Englisch, Französisch, Spanisch und diverse arabische Dialekte inklusive Transliteration. 
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behörden offen zu sein und hier OSINT- und COMINT-Fähigkeiten anzubieten: mitsamt 
einer API, die es erlauben soll, die Software für Big-Data-Anwendungen einzusetzen. Ein 
Beispiel im Bereich OSINT wird mit der Social-Media-Plattform Twitter angeführt: das 
Produkt sei unter Einsatz entsprechender IBM-Hardware fähig, den gesamten Traffic des 
Kurznachrichtendienstes von (damals: 2011) rund 10TB je Tag zu verarbeiten und automa- 
tisch massen zu überwachen. 54 

In computerlinguistisch interessantester Hinsicht wird darauf hingewiesen, dass das Pro- 
dukt in den unterstützten Sprachen folgende Fähigkeiten (und mehr) aufweist: 

• Es wird zwischen Gross- und Kleinschreibung differenziert. 

• Bewusster Einsatz von oder durch Flüchtigkeitsfehler entstandene Buchstabenrepeti- 
tionen, die den semantischen Zusammenhang in einer Textkollektion mildern könnten, 
werden beachtet: vwwviagra = viagra. 

• Ortografische Schreibvariationen werden beachtet: viagra = vi@gra = vlarga. 

• Geringe linguistische Distanzen von Vorgefundenen Oberflächenformen zum Lemma 
können korrigiert werden, wenn einzelne Buchstaben fehlen, eine (falsche) Worttren- 
nung oder Substitution vorhegt: viagra = v iagra = v | agra. 

• Wortalterationen unter Einsatz nicht-alphanummerischer Zeichen können erkannt 
werden: viagra = v.i.a.g.r.a = v-iagra. 

• Auf die diversen Textsorten wird eingegangen: dem (informelleren) Schreibstil in 
SMS- oder IM-Konversationen und den kleineren Dokumentengrössen wird Rechnung 
getragen. 

• NER wird betrieben zur Erkennung zum Beispiel - gemäss Folien - von Namen, Orten 
oder Nationalitäten. 

• Konversationsfäden können aufgeschlüsselt und das soziale Netzwerke der Kommu- 
nikationsteilnehmer erfasst werden. 

Ohne, dass in den Folien selber auf die konkreten computerlinguistisch zugrundeliegenden 
Methoden eingegangen wird, führen die Autoren an, dass die überwachte Kommunikation 
nicht bloss auf Einzelwortbasis analysiert wird, sondern Kontext und Bedeutung mitein- 
fliessen; so sei das Produkt fähig, die analysierten Textströme nach Topics 55 zu “filtrieren” 
und ferner Sentimentanalyse zu betreiben oder Fragen erkennen zu können. 

In den Folien sind ferner zwei konkrete Fallbeispiele der Inhaltsanalysefähigkeiten gegeben: 

• Der Umgang mit verschiedenen Arabischdialekten und -Schreibweisen ist handhabbar: 

54 Zu betonen ist, dass der Begriff der “mass interception” (zu Deutsch: Massenüberwachung) in den Folien 

unverblümt selber geführt wird. 

55 Es werden die Bereiche Terrorismus, Drogen oder Gewalt genannt. 
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das Produkt ist fähig, das arabische Chat-Alphabet mit den phonetisch äquivalenten 
Zeichen zum arabischen Alphabet zu erfassen, die in der Textkommunikation über 
das Internet Anwendung findet. 

• Das illegale Anbieten von kinderpornografischen Darstellungen wird auf Grund einer 
offenbar szenetypischen Abkürzung und Alterserwähnung (eines Kindes) im Zusam- 
menhang mit der Verlinkung eines Medienerzeugnisses beispielhaft erkannt. 

Es wird behauptet, die False-Positive-Rate hege im Bereich [0.001, 0.05]: dies kann allerdings 
mangels einer wissenschaftlichen Evaluation im Rahmen der verfügbaren Dokumente nicht 
unabhängig überprüft werden, schon gar nicht, wenn nicht deutlich wird, in welchen 
Kontexten dies stimmen soll. 


2.4 Befunde: Logiken der Massenüberwachung auf Basis von 
Selektoren 

2.4.1 Was sind Selektoren? 

Gemäss ÄBC-Glossar [45] zu den NSA-GCHQ-Enthüllungen können Selektoren wie folgt 
definiert werden: 

The identifiers used hy the security Services ivhen carrying out their searches - 
for example, a phone nurnber or an internet protocol (IP) address. These can be 
divided into two broad types - strong and soft. 

A strong selector is an identifier associated with a specific individual - e.g. a 
search for content associated with an email address. In theory, the NSA cannot 
intentionally use a strong selector linked to a US Citizen, any other US person or 
anyone located within the United States. 

A soft selector is less limited in its scope and is typically based on the content of 
message. This can be a word or phrase, such as “big explosion”, or the language 
the message is written in - for example, French. 

Das heisst, dass zwischen “Strong”- und “Soft”-Selektoren unterschieden wird, entsprechend 
ob nach Meta- oder Inhaltsdaten der Kommunikation aussortiert werden soll. 

Grundsätzlich wird diese Unterscheidung von allen Staaten, die Massenüberwachung 
betreiben und die im Folgenden betrachtet werden, gemacht, wenn auch die Bezeichnungen 
unterschiedlich sein können. 
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2.4.2 FVEY: Echelon 

Although it is impossible for analysts to listen to all but a small fraction ofthe 
billions of telephone calls, and other signals which might contain "signifcant" 
Information, a network ofmonitoring stations in Britain and elsewhere is able 
to tap all international and some domestic Communications circuits, and sift out 
messages which sound interesting. Computers automatically analyse every telex 
message or data signal, and can also identify calls to, say, a target telephone 
nurnber in London, no matter from which country they originate. 

- Duncan Campbell am 12. August 1988 [14] 

1988 enthüllte der investigative Journalist Duncan Campbell das Echelon-System, ein 
globalisiertes Überwachungssystem, das von den FVEY-Staaten begründet wurde. Bereits 
für damalige Verhältnisse mag erstaunen, dass das System fähig war, etwa Milliarden von 
Telefonanrufen nach “signifikanten” Informationen automatisch auszusondern. [96, S.107] 
[14] 

Offiziell bestätigt und als amtlich existent [105] gilt Echelon seit 2001, nachdem Gerhard 
Schmid, Berichterstatter des Europäischen Parlaments, in einem umfassenden Bericht 
Wesen und Fähigkeiten von Echelon darlegte. Der Bericht wurde mit qualifizierter Mehrheit 
angenommen. 

Schmid qualifiziert Spionage als nicht Geringeres als den “organisierten Diebstahl von 
Informationen ”, wobei diese bei Echelon insbesondere durch einen Abhörverbund der 
UKUSA-Staaten weltweit organisiert ist. Unter anderem betont er die Rolle des Vere- 
inigten Königreichs, welche die Fähigkeit hat und nutzt, die Unterseekabel vor der eigenen 
Küste anzuzapfen. [105, S.28,32,34] Dies hat sich mit dem Snowden-Enthüllungen konkret 
bestätigt, indem das Tempora- Programm enthüllt wurde. 

Zur Art der Suche in den Datenströmen wird im Bericht festgehalten, dass diese “[...] 
auf Basis von Suchbegriffen, die thematisch gruppiert sind [...]” erfolge - ohne allerdings 
auf die Genese der Suchbegriffe einzugehen. Am Beispiel des Bundesnachrichtendienstes 
BND zeigt Schmid auf, dass von den (damals: 2001) rund 10 Millionen internationalen 
Kommunikationsverbindungen, die je Tag über Deutschland erfolgen, 800’000 über Satellit 
abgewickelt würden: davon würden 75’000 der Rasterung durch eine Suchmaschine unter- 
worfen. Als Grund, weshalb nur knapp 10% des satellitengestützten Verkehrs durchsucht 
wurde, gelten technische Beschränkungen. Es wird ferner darauf hingewiesen, dass wenn 
zusätzlich Kabelverkehr beigezogen wird, zwar die statistische Trefferwahrscheinlichkeit 
steigt, weil das durchsuchbare Textkorpus grösser ist, das aber nicht unbedingt heisst, dass 
deswegen auch mehr True-Positives resultieren. Für Echelon vermag der Berichterstatter 
keine Angaben über die Zahl der verfügbaren Begriffe zu machen. Dafür liegen solche für 
den BND vor, der - wie wir heute wissen - eng mit dem FVEY -Verbund und insbesondere 
der NSA zusammenarbeitet, so dass es sich möglicherweise um ähnliche, wenn nicht gar 
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dieselben inhaltlichen Suchbegriffe handelt. Es wird festgestellt [105, S.37,38], dass es je 
nach Themenbereich eine verschieden grosse Zahl an inhaltlichen Selektoren gibt: 

• 2’000 für den Bereich Proliferation 

• l’OOO für den Rüstungshandel 

• 500 für den Terrorismus 

• 400 für den Drogenhandel 

Für die letzten zwei Bereiche hält Schmid [105, S.38ff] fest: 

Bei Terrorismus und Drogenhandel hat sich das Verfahren allerdings als nicht 
sehr erfolgreich erwiesen. 

Für andere Überwachungsbereiche liegen weder für den BND noch Echelon genaue Infor- 
mationen vor, allerdings wird daraufhingewiesen, dass einerseits jeder Mitgliedstaat des 
FVEY -Verbundes über seine eigenen “Dictionary”-Computer verfüge, die es mit beliebigen 
Suchbegriffen ausstatte könne, um Texte der interessierenden Suchkategorie zu finden und 
andererseits seit Anbeginn des Verbundes 56 das Interesse auch den Bereichen Wissenschaft 
und Wirtschaft und nicht bloss Politik und Sicherheit gilt. Diese Aussage werden mit Bele- 
gen durch Echelon durchgeführter Wirtschaftsspionage untermauert. [105, S.70ff.,108ff.] 

Die Schweizer Geheimdienstkontrolle hat sich ebenfalls Echelon angenommen. Sie gelangt 
2003 zu ähnlichen Erkenntnissen: dass System umfasse nicht nur die Überwachung von 
Funkverkehr, sondern auch von Kabelnetzen; zudem sei das globalisierte COMINT-System 
ursprünglich zwar militärisch zu verorten, rasch aber wurde es für Zwecke der “Wirtschafts- 
und Konkurrenzspionage” eingesetzt. [30, S.1507ff] 

Es wird im Bericht auch auf Gefahren für den einzelnen Bürger hingewiesen: so soll 
durch Echelon eine Frau als potenzielle “Terroristin” markiert worden sein, weil sie in 
einem Telefongespräch mit einem Freund einen zweitdeutigen Begriff genutzt habe. [105, 
S.75] 

Selbst entgegen den Interessen der Regierungen des FVEY- Verbundes selber soll Ech- 
elon bereits missbraucht worden sein, wie folgendes Zitat [105, S.75] zu bedenken gibt: 

[D]er GCHQ [habe] den kanadischen CSE gebeten, für ihn zwei englische Minister 
auszuspionieren, als Premierministerin Thatcher wissen wollte, ob diese sich auf 
ihrer Seite befinden. 

So empfiehlt [105, S.133] das Europäische Parlament mit der Verabschiedung des Berichts 
abschliessend auf Technologien der Mailverschlüsselung zu setzen, und darauf bedacht zu 


56 Das UKUSA-Agreement, das den den FVEY -Verbund begründet, wurde nach Ende des Zweiten Weltkriegs 
eingerichtet. 
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sein, interne Netze möglichst vom Internet zu trennen: Empfehlungen, die - wie wir aus 
den Snowden-Enthüllungen wissen - heute mehr denn je unterstreicht werden können. 

Technisch konkreter hinsichtlich der Fähigkeiten von Echelon wird ein technischer Bericht 
der Europäischen Union, der bereits 1999 erschienen [1, S.53f£] ist. Die Suche nach “key- 
words” wird mit der einer Websuche verglichen, allerdings mit unvergleichbar grösseres 
Korpus: 

Whenever machine readable Communications are available, keyword recognition 
is fundamental to Dictionary Computers, and to the ECHELON System. The 
Dictionary function is straightforward. Its basic mode of Operation is akin to 
web search engines. The differences are of substance and ofscale. Dictionaries 
implement the tasking oftheir host Station against the entire mass of collected 
Communications, and automate the distribution of selected raw product. 

Weiterhin gibt es nebst der “keyword”-basierten Suche auch Verfahren, die n-gramm-basiert 
nach Themen suchen. Das System wird wie folgt beschrieben: 

To use N-gram analysis, the operator ignores keywords and defines the enquiry 
by providing the System with selected written documents concerning the topic of 
interest. The System determines what the topic is from the seed group of documents, 
and then calculates the probability that other documents cover the same topic. 

In einem Test hat sich dieses Verfahren als besser erwiesen; es sollte dabei nach Evidenz 
von Air&us-Tochtergesellschaften in Textkollektionen gesucht werden: 

In a Standard US test used to evaluate topic analysis Systems, one task the analysis 
program is given is to find information about "Airbus subsidies". The traditional 
approach involves supplying the Computer with the key terms, other relevant 
data, and synonyms. In this example, the designations A-300 orA-320 might be 
synonymous with "Airbus". The disadvantage ofthis approach is that it may find 
irrelevant intelligence (for example, reports about export subsidies to goods flown 
on an Airbus) and miss relevant material (for example a financial analysis of a 
Company in the consortium which does not mention the Airbus product by name). 

Topic analysis overcomes this and is better matched to human intelligence. 

Das Verfahren entspricht zwar nicht der Topic Analysis, wie es von Blei 2003 [8] später 
beschrieben wird, allerdings wird damit schon früh der Logik gefolgt, auf Basis eines Ver- 
dachtskorpus nach (weiteren) ähnlichen Texten zu suchen - wie dies auch im Rahmen des 
praktischen Teils dieser Arbeit umgesetzt wird. 

Im Zweifelsfall (bei verschlüsselter Kommunikation) oder im Falle von Voice-Kommunikation 
würde “traffic analysis” eingesetzt, womit - in womöglich wichtigster Hinsicht - Kontakt- 
netzwerke von Personen ausgespäht werden können, was einer Massenüberwachung mit 
Fokus auf Metadaten entspricht: 
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Traffic analysis can be used where message content is not available, for example 
when encryption is used. By analysing calling patterns, networks of personal as- 
sociations may be analysed and studied. This is a principal method ofexamining 
voice Communications. 


2.4.3 Deutschland: NSAUA zur Massenüberwachung des BND 

Ausspähen unter Freunden - das geht gar nicht. 

- Bundeskanzlerin Angela Merkel am 24. Oktober 2013 [86] 

Auf Grund der Snowden-Enthüllungen wird die Beteiligung Deutschlands an der weltweiten 
Massenüberwachung analysiert: sie ist durch starke mediale Begleitung geprägt, die als 
Belege für einige Sachverhalte dienen können. Da der noch immer arbeitende parlamen- 
tarischen Untersuchungsausschusses [13] einige Details zur Funktionsweise der Massen- 
überwachung auf Basis von Selektoren zu Tage fördert, werden Teile ihrer Ergebnisse - 
sofern sie technische Aspekte betreffen - im folgenden Abschnitt 2.4.3. 1 beleuchtet. 

2.4.3. 1 Zahl von Selektoren 

Die Anzahl Selektoren, die beim deutschen Auslandsgeheimdienst BND im Einsatz sind 
oder waren, reichen je nach Zeitspanne der Betrachtung und laufender Überwachungspro- 
gramme der Massenüberwachung von 800’000 bis zu 14 Millionen, wobei die meisten dieser 
Selektoren nicht vom BND selber stammen, sondern - im Zuge einer Joint SIGINT Activity 
JSA - von der NSA, teilweise ohne jede Kontrolle des BND über deren Natur oder Zweck, 
stammen. [4, 69] 

So schreibt [93] Roland Peters unter dem Titel “Blinde Spionage des BND” für N-TV : 

Es gibt [...] Informationen darüber, wie sorglos der deutsche Geheimdienst wohl 
einfach alles durchwinkte, was die Amerikaner filtern wollten. Den Zahlen des 
NSA-Untersuchungsausschusses im Bundestag zufolge liefen allein im August 
2013 zwischen 8 und 9 Millionen Selektoren ein. Darin suchte der BND nach 
Kollisionspunkten mit deutschen Interessen. Er fand 25.000 und löschte sie. 

2.4.3.2 Graulich-Bericht 

Im Graulich-Bericht [36] zu Händen des NSAUA liefert der Berichterstatter Kurt Graulich, 
der die Aufgabe erhalten hat, 40’000 NSA-Selektoren zu überprüfen, folgende Erkenntnisse: 

• Die Natur der Massenüberwachung wird bestätigt, wenn der Berichterstatter es auch 
vorzieht, bloss von der Überwachung einer “Vielzahl” von Telekommunikationen zu 
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schreiben. 

• Für einen formalen Suchbegriff (oder: Strong-Selektor) sind bis zu 20 Varianten 
(“ Permutationen ”) möglich. 

• Inhaltliche Suchbegriffe (oder: Soft-Selektoren) würden auch eingesetzt, seien allerd- 
ings seltener, weil sie zu einer hohen Zahl irrelevanter Treffer führen würden. 

• Auf eine Suchabfrage erfolgen bis zu drei weitere (interne) Suchen, die als “Filter- 
stufen” gelten und die Trefferstatistik negativ beeinflussen; diese sind: 

1. Liste mit eindeutig deutschen Grundrechtsträgern, die nicht überwacht werden 
dürfen. 

2. Liste mit deutschen Grundrechtsträgern (Personen, Firmen oder andere En- 
titäten), die im Ausland verweilen, und auch nicht überwacht werden sollen. 

3. Liste mit Selektoren, die darauf abzielen, “deutsche Interessen” zu wahren. 

• Bei den formalen Selektoren, die beschrieben werden, sind eine Reihe von Selek- 
tortypen bekannt, wie Telefon -Nummern oder IP-Adressen; andererseits besteht auch 
eine Kategorie “OTHER”, für alle Telekommunikationsmerkmale, wo keine einfache 
Zuordnung möglich ist. 

• Graulich konstatiert, dass die Interpretation der Selektoren schwierig ist: eine “sub- 
jektive Komponente” sei gegeben. 

• Was die von WikiLeaks publizierten Selektoren [126] gegen die eigene Regierung 
betrifft, so wisse der BND davon nichts. 

Der Bericht wird von netzpolitischen Akteuren allerdings umgehend auch kritisiert: so 
habe Graulich SZP-Kennungen für Internettelefonie mit E-Mail-Adressen verwechselt 
oder ein falsches Verständnis darüber, was eine IMEI ist oder einen allgemein viel zu 
verkürzten Begriff vom Wesen von Selektoren. Der Berichterstatter wird zudem dafür 
kritisiert, sich vom BND bei der Abfassung des Berichts unterstützt haben zu lassen, was 
die Unabhängigkeit des Berichts in Frage stelle. [7, 58] 

So schreibt [58] Constanze Kurz vom CCC in der FAZ: 

Nach der Lektüre von Graulichs Bericht drängt sich eine Erkenntnis förmlich auf: 

Das Problem sind nicht allein die Fehler, die Rechtsbrüche und das Durchwinken 
bei der Weitergabe von Informationen an die NSA. Das Problem ist die “strategis- 
che Fernmeldeüberwachung” an sich. So zu tun, als könnte man das massenhafte 
Durchforsten von Kommunikation durch die Anwendung von mehr oder weniger 
Selektoren irgendwie beherrschen und “grundrechtskonform” durchführen, ist als 
bloße Augenwischerei enttarnt. 
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Was das Zustandekommen der Selektoren betrifft, herrscht weiterhin Unklarheit, wobei 
eine interessante Analyse in der Sache aus Österreich kommt: der dortige Parlamentsabge- 
ordnete Peter Pilz verweist in einem Facebook-Post auf eine durch WikiLeaks veröffentlichte 
US-Depesche vom 31. Juli 2009 57 in der die Botschaften aufgerufen werden, HUMINT- 
Informationen von UN-Funktionären zu sammeln. 

In dem Zusammenhang beschreibt er das Zustandekommen von US-Selektoren inmitten 
Europas: 

Die ausspionierten HUMINT-Daten sind dann die Selektoren, mit denen die NSA 
ihre in Frankfurt und Wien abgeschöpften Massendaten durchsucht. Mit diesen 
Selektoren werden dann die österreichischen Daten, die durch die SCS-Antennen 
auf US -Botschaft und US-Mission, am Telekom-Knoten Frankfurt, über direktes 
Hacken einzelner Rechner und über Satelliten abgeschöpft wurden, durchsucht. 

So funktioniert der amerikanische Spitzelstaat mitten in Wien. 

2.4.3.3 Spionage von Freunden und “hochkritische” Selektoren 

In jüngeren Erkenntnissen aus dem NSAUA wurde bekannt, dass der BND einen eigenen 
(deutschen) Diplomaten ausspioniert hat, daneben aber auch einige Minister befreundeter 
Staaten sowie deren Botschaften. Was die Schweiz betrifft, so soll unter anderem das 
Internationale Komitee vom Roten Kreuz IKRK in Genf Ziel von ÄND-Spionage gewesen 
sein. [37, 87] 

Abgeordnete des NSAUA haben seit Ende November 2015 Zugang zu einer Selektorenliste 
im Bundeskanzleramt: erste Reaktionen deuten daraufhin, dass es darunter “hochkritische” 
Selektoren hat. Andere seien ohne Erklärungen nicht verständlich. In weiteren Fällen 
sei der Zusammenhang zu den bezeichneten Überwachungsgebieten (wie beispielsweise 
Proliferation oder Waffenhandel) nicht offensichtlich. [2] 


2.4.4 Schweiz: Onyx oder Massenüberwachung von Militär und NDB 

Der Einsatz des Onyx war gemäss spirituellen Kreisen - wie etwa dem Militärde- 
partement - absolut notwendig, um negative Einflüsse von bösen Menschen oder 
schwarzer Magie abzuwehren, und der Achat komplettierte diese Mission auf 
gar wunderbare Art und Weise. Kurzum: Der Achat war ein Glanzstück der 
nationalen Sicherheitspolitik, ein unverzichtbarer Bestandteil von Ueli Maurers 
Kronjuwelen, ein absolutes Muss für den Nachrichtendienst, wollte dieser kün- 


B7 Vgl. Publikation in The Guardian. [124] 


32 


Kapitel 2. Stand der Technik des Überwachungskomplexes 


ftig mit den Spitzenplayern auf dem Markt wie etwa NSA, KGB oder Mossad 
mithalten. Da durften auch die Anschaffungskosten von rund neunzig Millionen 
Franken kein Hindernis darstellen, Finanzengpässe hin oder her. 

- Susi Stühlinger am 9. April 2015 [115] 

1999 recherchierte die SonntagsZeitung, dass die Schweiz ein Funküberwachungssystem 
Onyx aufbaut, im Sinne vom “[grossen] Lauschangriff im All” . Zusätzliche Quellen deuten 
daraufhin, dass die angeschaffte Technik und ihre Ausrichtung, dafür eingesetzt würde, 
unter anderem deutsche, französische oder italienische Telekommunikationssatelliten 
abzuhören. [114] Bewilligt wurde das Initialbudget über CHF 45 Millionen von Onyx an 
mehreren Schweizer Standorten vom Parlament als “Mehrzweckgebäude”. Dem zuvor ging 
ein geheimer, unprotokollierter Beschluss des Schweizer Bundesrates, ein Abhörsystem 
nach dem Vorbild von Echelon zu errichten. [22, 98] 

Tatsächlich hat Onyx erst 2012 nach rund 10-jährigem Betrieb gesetzliche Grundlagen über- 
haupt erhalten. [34, S.6586][35, S.3574], Seither ist die Funkaufklärung im Bundesgesetz 
über die Zuständigkeiten im Bereich des zivilen Nachrichtendienstes ZNDG existent. 

Wie die Weltwoche 2005 beschreibt [22], ähnelt die Funktionsweise dem FVEF- Vorbild 
durchaus: 

Die Resultate des Systems dürfen nicht unterschätzt und als Spielerei abge- 
tan werden. Auf den Onyx-Grossrechnern laufen Programme, welche alle abge- 
saugten Rohinformationen mit Hilfe von Künstlicher Intelligenz (KI), optischer 
Texterkennung (OCR), Sprach- und Stimmprüfung sowie von Schlüsselwort- 
und Themenanalysen filtern und sortieren. Werden vier bis fünf dieser “hit- 
words” oder “keywords” kombiniert, lässt sich die riesige Datenflut entscheidend 
kanalisieren. [...] Nach Meinung des deutschen Geheimdienstexperten Erich 
Schmidt-Eenboom kann mit dieser Methode der undurchschaubar scheinende In- 
formationswirrwarr auf eine überschaubare Menge reduziert werden: “Werden die 
Suchbegriffe gezielt verbunden, reduziert sich die gigantische Informationsmasse 
rasch auf ein politisch und polizeilich verwertbares Mass.” Von der hochgeheimen 
Liste dieser Schlüsselwörter, erstellt von den Geheimdiensten, offiziell abgesegnet 
vom Bundesrat, weiss man nur, dass sie “laufend aktualisiert” wird. Die Liste 
der “hitwords” im Bereich des Waffenhandels soll mehr als zehn Seiten mit je 25 
Begriffen umfassen. 
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2.4.4. 1 Untersuchungen der GPDel zur Funkaufklärung 

Schon vor rund 12 Jahren untersuchte 58 die Geschäftsprüfungsdelegation der Eidgenös- 
sischen Räte 59 , die in der Schweiz für die Geheimdienstkontrolle zuständig ist, das Funk- 
überwachungssystem “Onyx”, das “[...] eine Massenüberwachung von Kommunikationen 
[ermöglicht] die dem Bereich COMINT zuzuordnen ist, die diskursive Kommunika- 
tionen betrifft: der Fokus liegt auf die “[...] Abhörung, Auswertung und Übermittlung von 
Funkausstrahlungen, die in Graphiken oder in die menschliche Sprache übersetzt werden 
können [30, S.1500,1505ff] 

Im Kern stellt die GPDel, was die Funktionsweise der Massenüberwachung betrifft, Folgen- 
des fest: 

Die Leistungsvereinbarungen beinhalten sämtliche zur Ausführung und Kontrolle 
der Aufträge erforderlichen Elemente. Sie enthalten namentlich die gesuchten 
Aufklärungsobjekte (Namen von Personen, Organisationen oder Unternehmen, 
Adressteile usw.) sowie die Liste der Schlüsselwörter (Key Words), von denen der 
Auftraggeber erwartet, dass sie in den abgehörten Kommunikationen erscheinen. 

All diese Informationen sind zur Ausarbeitung automatischer Filtersysteme für 
die Kommunikationen notwendig. Je nach Auftrag können zwischen fünf und 
mehrere hundert Schlüsselwörter eingegeben werden. Im Bereich der Bekämpfung 
der Proliferation beispielsweise zählt die Liste der Schlüsselwörter mehr als zehn 
Seiten mit 25 Begriffen pro Seite. [...] “Diese Aufträge beziehen sich auf die 
Bekämpfung der Proliferation, die Spionageabwehr, das organisierte Verbrechen, 
den Kampf gegen den Terrorismus und die Situation im Golf.” [...] “Die Filtrierung 
erfolgt mit Hilfe von Systemen künstlicher Intelligenz. Diese Systeme vergleichen 
den Inhalt der Kommunikation mit den vor definierten Adressierungselementen 
und Schlüsselwörtern.” [...] “Meldungen, die keinen dieser Kriterien entsprechen, 
werden automatisch herausgefiltert.” 

Ferner ist es auch möglich, formale Selektoren einzusetzen: besteht ein konkretes “Adress- 
ierungselement” 60 kann sämtliche Kommunikationen eines bestimmten Teilnehmers abge- 
fangen werden und - falls die Datenmengen zu gross sind - zusätzlich auf inhaltliche 
Suchbegriffe zurückgegriffen werden. [30, S.1517ff] 

Rechtlich bemängelt die Geheimdienstkontrolle die Intransparenz der massenweisen Funk- 
überwachung, weil sie es den Bürgern erschwere “mit einem adäquaten Verhalten reagieren 
zu können” 61 und weist zudem daraufhin, dass es zu illegalen Aufträgen seitens des damali- 


58 Dem zuvor standen allerdings Medienberichte, die bis 1999 zurückreichen. 

59 Schweizer National- und Ständerat 
60 Im Beispiel eine Telefax-Nummer. 

61 Hiermit sagt die GPDel implizit, dass die Funk-Massenüberwachung unter Bewusstsein der Bevölkerung, 
einen Chilling Effect - durch angepasstes Verhalten - zur Folge haben müsste. 
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gen Inlandsgeheimdienstes DAP e 2 kommt. Dieser reagiert offenbar mit der Aussage darauf, 
die Rechtsgrundlagen müssten “korrigiert” werden. Auch der Schweizer Bundesrat 63 nimmt 
eine fragwürdige Rolle ein, indem er die illegalen DAP-Aufträge mittels Verordnung be- 
willigt - ohne dafür eine gesetzliche Grundlage zu haben. Es ist die Rede davon, dass der 
Bundesrat entschieden habe, “die Normenhierarchie umzukehren”. [30, S.1519,1523ff] 

Betreffend die Legitimität zur Auslandsspionage stellt die GPDel im Wesentlichen fest, dass 
im Sinne der Weltraumtheorie, die Funk-Massenüberwachung als unproblematisch betra- 
chtet werden kann, weil der Weltraum internationales Gemeingut und somit rechtsfrei sei. 
Zudem stellt sie fest, dass keine Übereinkommen existieren, welche eine Auslandsspionage 
verbieten würden. Grundrechte machten an Staatsgrenzen halt - die Sicherheitsinteressen 
des Staates gingen vor. In wirtschaftlicher Hinsicht zudem könnten Daten aus der Aus- 
landsspionage situationsbedingt nützliches Tauschmittel sein. Allerdings wird betont, dass 
die Bedeutung der Funk-Massenüberwachung abnehme, 64 weil mehr Kommunikation über 
Kabel verlaufen würde. 65 Abschliessend werden die Finanzierung des Onyx-Systems und 
die zunehmende Verschlüsselung der Kommunikation als Herausforderungen gesehen. 66 
[30, S.1527ff.,1531ff.] 

Spätere Berichte der GPDel informieren - bis heute - nicht weiter über die Funkaufk- 
lärung: bloss 2007 und 2008 sind Notizen zu vernehmen, wonach “Wirksamkeitskontrollen” 
(weiterhin) ausblieben. [32, S.5149][33, S.2624] 

2.4.4.2 Geplante Kabelaufklärung im NDG 

Am 25. September 2015 hat das Schweizer Parlament beschlossen, das Nachrichtendi- 
enstgesetz einzuführen. Dieses soll einerseits die zwei bisherigen Gesetzestexte BWIS 
und ZNDG, die die Arbeit des zivilen Geheimdienstes NDB regeln, formell-gesetzlich eini- 
gen und damit obsolet machen, führt gleichzeitig aber einen ganzen Katalog an neuen 
Überwachungsmassnahmen ein, die die Machtfülle des NDB erheblich erweitern: eine 
davon ist die “Kabelaufklärung”. 

In Art. 39 NDG wird das grundsätzliche Wesen der Kabelaufklärung dargelegt: 

1. Der NDB kann den durchführenden Dienst damit beauftragen, zur Beschaffung von 
Informationen über sicherheitspolitisch bedeutsame Vorgänge im Ausland (Art. 6 

62 Der Dienst für Analyse und Prävention DAP war bevor er mit dem Auslandsgeheimdienst SND zusam- 

mengelegt wurde, jener Schweizer Geheimdienst, der strikte für das Inland zuständig war. Weil das 
Onyx-Funküberwachungssystem eigentlich für die Massenüberwachung des Auslands bestimmt war, hat die 
GPDel durch die schon 2003 existierenden DAP-Aufträge an das Onyx-System illegales Handeln festgestellt. 

63 Die Bundesregierung der Schweiz 

64 Es wird festgestellt, dass nur 1% der Telefongespräche über Satellit abgewickelt würden. 

65 Insbesondere schlecht vernetzte Gebiete sind auf satellitengestützte Kommunikation angewiesen. 

66 Dies ist Indiz dafür, dass durch den massenweisen Einsatz von Verschlüsselungstechnik die Kosten der 
Massenüberwachung derart erhöht werden können, dass die Finanzierung solcher Praxen erschwert wird. 
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Abs. 1 Bst. b) sowie zur Wahrung weiterer wichtiger Landesinteressen nach Artikel 3 
grenzüberschreitende Signale aus leitungsgebundenen Netzen zu erfassen. 

2. Befindet sich sowohl der Sender als auch der Empfänger in der Schweiz, so ist die 
Verwendung der erfassten Signale nach Absatz 1 nicht zulässig. Kann der durch- 
führende Dienst solche Signale nicht bereits bei der Erfassung ausscheiden, so sind die 
beschafften Daten zu vernichten, sobald erkannt wird, dass sie von solchen Signalen 
stammen. 

3. Daten aus erfassten Signalen dürfen nur an den NDB weiter geleitet werden, wenn deren 
Inhalt den für die Erfüllung des Auftrags definierten Suchbegriffen entspricht. Die 
Suchbegriffe sind so zu definieren, dass ihre Anwendung möglichst geringe Eingriffe 
in die Privatsphäre von Personen verursacht. Angaben über schweizerische natürliche 
oder juristische Personen sind als Suchbegriffe nicht zulässig. 

In den Abs. 1 und 2 wird suggeriert, einzig Daten, die ins Ausland fliessen oder vom Ausland 
in die Schweiz gesendet werden, seien von der neuen Möglichkeit zur Massenüberwachung 
betroffen. 

Technisch muss entgegengehalten werden, dass einerseits zahlreiche Dienste, welche die 
Schweizer Bevölkerung nutzt, im Ausland betrieben werden - darunter auch viele Schweizer 
Online-Medien oder E-Mail-Dienste, was bedeutet, dass der Datenverkehr zwangsläufig 
“grenzüberschreitend” ist; andererseits kann kein gewöhnlicher Internetteilnehmer entschei- 
den, über welche Wege die eigene Kommunikation im Internet geleitet wird. 67 Somit ist 
möglich, dass eine versendete E-Mail, die beispielhaft eine Kommunikation innerhalb der 
Schweiz konstituiert, über den Frankfurter Internet Exchange Point und die USA verkehrt, 
was heisst, dass nicht nur der deutsche Auslandsgeheimdienst BND die Nachricht abfangen 
und verwerten kann, sondern auch der britische Auslandsgeheimdienst GCHQ im Rahmen 
seines Tempora -Programms und rein rechtlich auch der NDB: sowohl (zumindest) einmal 
aus- als auch eingangs. 

Die einzige “echte” Einschränkung, die in Art. 39 mit Abs. 3 sichtbar ist, wäre die, dass 
zumindest unmittelbar keine Named Entitites natürlicher (etwa: Personennamen) oder 
juristischer Personen (etwa: Firmennamen) als Selektoren erlaubt sind: es gilt allerdings 
zu beachten, dass damit nicht ausgeschlossen ist, dass diese Begriffe in der Kommunikation 
auftauchen. Es ist nur nicht erlaubt, sie direkt als Suchbegriffe einzusetzen. Gelingt es 
also, Begriffe zu finden, welche in anderen (und gegebenenfalls mehr) Worten diese Named 
Entities im Kern referenzieren, wie dies beispielsweise bei Topikalischer Analyse mittels 
Verfahren wie Latent Dirichlet Allocation [8] gelingen kann, so ist auch diese Regelung 
technisch ausgehebelt. 


67 Es wird geschätzt, dass 60% des Schweizer Internetverkehrs über das Ausland abgewickelt wird; ' des 
Schweizer Internetverkehrs soll sogar über Grossbritannien laufen, was ihn XKeyscore sicher zugänglich 
macht. [53, 71] 
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Für die in Art. 39 Abs. 2 festgehaltene Regel, dass Kommunikation zwischen Entitäten im 
Inland zu löschen sei, muss einerseits festgehalten werden, dass technisch die Kontrolle 
darüber für die Öffentlichkeit oder die Betroffenen 68 nicht möglich ist und andererseits 
bestehen normative Hintertüren. Art. 42 Abs. 2 und 3 führen nämlich folgende Regelungen: 

• Er leitet ausschliesslich Daten an den NDB weiter, die Informationen zu den für 
die Erfüllung des Auftrags definierten Suchbegriffen enthalten. Informationen über 
Personen im Inland leitet er nur dann an den NDB weiter, wenn sie für das Verständnis 
eines Vorgangs im Ausland notwendig sind und zuvor anonymisiert wurden. 

• Enthalten die Daten Informationen über Vorgänge im In- oder Ausland, die auf eine 
konkrete Bedrohung der inneren Sicherheit nach Artikel 6 Absatz 1 Nachrichtendienst- 
gesetz stabe a hinweisen, so leitet der durchführende Dienst sie unverändert an den 
NDB weiter. 

Es ist nicht deutlich, was Art. 42. Abs. 2 mit “Informationen über Personen im Inland” 
genau meint: auf jeden Fall kann der NDB die unveränderten Rohdaten einsehen, wenn er 
sich nach Abs. 3 auf die “innere Sicherheit” beruft. 

Auch die Schweizer Geheimdienstkontrolle sieht in der Kabelaufklärung gemäss einem 
Bericht wörtlich die Gefahr, dass sie zur “Suche im Heuhaufen” ausufern könnte. [31, S.28] 


2.5 Befunde: Konkrete Selektoren zur Massenüberwachung 

An dieser Stelle werden Selektoren verschiedener Art aufgezeigt, die im Rahmen der 
Snowden-Enthüllungen konkretisiert werden konnten. 


2.5.1 FVEY: Mögliche Echelon-Selektorenlisten 

Im Web ünden sich Listen von Wörtern oder Ausdrücken, die mit dem Echelon- System in 
Verbindung gebracht werden: zur Illustration hat The Register eine solche im Zuge der 
um die Jahrtausendwende stattfindenden Diskussion über die globalisierte Überwachung 
veröffentlicht. [46] 

Eine Anfrage 69 im Rahmen der Masterarbeit gegenüber Duncan Campbell, der das Ech- 
elon-System schon früh enthüllt [14] hat, ergab, dass die Liste eine Erfindung darstellt 
und (entsprechend) keine Rückschlüsse über die Funktionsweise der Selektorgenerierung 
ermöglicht. 


68 Diese erhalten in aller Regel davon nicht einmal Kenntnis, sondern können nur diffus erahnen, dass sie 
überwacht werden. 

69 Im November 2015 erfolgt. 
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2.5.2 FVEY: XKeyscore und Beispiele von Selektoren 

Konkrete Evidenz von Soft-Selektoren finden sich im Zusammenhang mit XKeyscore- 
Veröffentlichungen. Wie das Linux Journal erstaunt [94] feststellt, werden deren Besucher, 
sofern sie nicht aus den EVEE- Staaten stammen, als “Extremisten” markiert, die weit- 
ergehend zu überwachen sind. Gleichsam werden Besucher der Webseite der Tails-Linux- 
Distribution kategorisiert: diese Konfiguration von Anwendungssoftware auf Linux-Basis 
erlaubt spurenarmes Surfen und ist auf anonymisierende und verschlüsselte Kommunika- 
tion bedacht. 

Gemäss von Edward Snowden den Medien gegenüber geleaktem XKeyscore - Code im An- 
hang 70 unter C.l macht sich als “Extremisten” ferner verdächtig, wer Begriffe der Se- 
lektorenmenge {t all s, Amnesiac Incognito Live System] in einer Kombination mit 
Begriffen der Selektorenmenge {USB, CD, secure desktop, IRC, truecrypt, tor] in 
seinem Datenstrom führt. 

Es sind zudem in XKS-Folien viele Beispiele von möglichen Selektoren gegeben. Ein 
gutes Beispiel ist für den Bereich des Advanced Conventional Weapons ACW-Waffenhandels 
vorhanden [81], wo diverse Selektormengen bestehen, die mittels den logischen Operatoren 
AND und ODER miteinander verknüpft werden können. Konkret besteht ein “Example 4”, 
das zunächst fünf Selektormengen aus Einzelworten oder Wort-n-Grammen führt: 


Sacwitems = {machine gun, grenade, AK 47} (2.1) 

S acwpositions = (minister of defence, defense minister} ( 2 . 2 ) 

S acwcountries = (somalia, liberia, Sudan} (2.3) 

Sacwbrokers = (south africa, serbia, bulgaria} (2.4) 

S acwports = (rangood, albasra, dar es salam} (2.5) 


Damit kann eine Suchabfrage erfolgen, die beispielsweise - wie vorgeschlagen - darin 
besteht, einen oder mehrere der Selektoren in den Selektormengen S aC witems und S acW positions 
(AND-verknüpft) mit einem beliebigen Begriff einer der anderen drei (ODER-verknüpften) 
Selektormengen zu verbinden. 

Zwei Beispiele gültig kombinierter Selektoren, mit denen jeweils AND-verknüpft in Daten- 
strömen gesucht werden könnte, wären: 

S\ = {machine gun, defense minister, liberia} (2.6) 

S 2 = (AK 47, grenade, minister of defence, south africa, rangood} (2.7) 


70 Vgl. Z.91ff. 
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2.5.3 USA: WikiLeaks-Publikationen 

Mitte 2015 hat WikiLeaks damit begonnen, beispielhaft einige Selektoren zu veröffentlichen, 
die von ihrer Natur her als formale, oder Strong-Selektoren zu qualifizieren sind. 

Dabei bestehen die bisher veröffentlichten Selektoren, die die Länder Deutschland, Frankre- 
ich und Japan direkt betreffen, jeweils aus Telefonnummern der Regierungs spitzen oder 
von Akteuren der Industrie: mit Japan sind beispielsweise Stellen von Mitsubishi oder 
Mitsu als Selektoren definiert. [125, 126, 127] 


2.5.4 Deutschland: Medienberichte und NSAUA 

Anfangs Mai 2015 wurde bekannt [68], dass der BND rund 12’000 NSA-Selektoren gelöscht 
hat, die folgende Teilmenge an Begriffen enthalten hat: {.eu, Bundesamt, diplo, gov}. 
Offensichtlich wurden solche Selektoren dazu genutzt, amtlichen (deutschen und EU- 
institutionellen) Datenverkehr abzufangen. 

Es kann davon ausgegangen werden, dass mehr über konkrete vom BND eingesetzte 
(ATSA-)Selektoren herausgefunden wird, denn seit Ende November 2015 - mit Abschluss 
dieser Arbeit - sind Mitglieder des NSAUA erstmals dabei, selber Einblick in (bestimmte) 
Selektorenlisten zu nehmen, die beim Bundeskanzleramt lagern. [95] 


2.5.5 Schweiz: Medienberichte und Onyx 

Konkrete Suchbegriffe von Onyx sind öffentlich nicht dokumentiert. Im Artikel der Welt- 
woche von 2005 wird allerdings ein konkretes Beispiel angeführt [22], das sich auf eine 
Expertenmeinung abstützt und Beispielen für den Bereich Waffenhandel nahe kommt, die 
in XKS-Folien geschildert werden und zudem thematischen Charakter haben: 

Wie die Internetsuchmaschine Google innert Sekunden das endlos scheinende 
WWW-Meer nach den gewünschten Begriffen ausfischt, so kann auch Onyx den 
gesamten Telefon-, Fax- und Mailverkehr, der über Satelliten läuft, permanent 
und methodisch clever überwachen. Je nach Auftrag werden zwischen fünf 
und mehreren hundert Begriffen eingegeben. Je präziser die Schlüsselwörter, 
desto exakter die Resultate. Allgemeine Ausdrücke wie “Terrorismus”, “Bombe” 
oder “Anthrax” sind laut Spezialisten ungeeignet. Die Verknüpfung konkreter 
Städtenamen wie “Riad”, “Bagdad” oder “Falludscha” mit Sprengstoffen wie 
“TNT”, “Anfos” oder “RDX” und den Namen verdächtiger extremer Muslime im 
Mittleren und Nahen Osten hingegen ist als Filter bereits durchaus geeignet. Nach 
dem gleichen Muster werden derzeit konkret auch Vorgänge in der russischen 
Politik und Wirtschaft (vom Handel mit Erdgas bis zum Verkauf von radioaktivem 
Material), in Transkaukasien und auf dem indischen Subkontinent ausgehorcht. 
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Hierbei werden Named Entities aus dem Waffenbereich mit solchen (dazu passender) 
geografischer Ortschaften verknüpft. 
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3 Automatische Generierung von Selektoren 


Der Vergleich mit Snowden [...] ist völlig daneben, weil die NSA, so, wie wir 
das heute wissen, einfach wirklich alles sammelt und auf die Seite legt. Bei 
uns suchen wir nach der Nadel im Heuhaufen, wir legen Kriterien fest, zeitlich 
befristet, und schauen, ob wir dann etwas finden. Alles, was nicht dem entspricht, 
wird ohnehin gar nicht verwertet. Wir haben am Schluss nur ganz weniges; es 
ist nicht einfach eine Sammelübung. Sie können das auch beim Personalbestand 
sehen. Wenn Sie vergleichen, wie viele Leute sich bei der NSA und wie viele Leute 
sich in unserem Nachrichtendienst damit beschäftigen, dann stellen Sie fest, dass 
wir im Bereich von 0,01 Promille sind. 

— Bundesrat Ueli Maurer am 11. Juni 2015 im Schweizer Ständerat [120] 

Im Rahmen dieses Kapitels werden nach drei unterschiedlichen Modellen Soft-Selektoren 

generiert, die dann im Rahmen des Kapitels 4 evaluiert werden. 


3.1 Grundannahmen 

Die Überwachungsmethodologie, die nachgebildet wird, entspricht bildlich der Suche nach 
einer Nadel im Heuhaufen, im Englischen auch needle-in-a-hay stack genannt. 

Folgende Grundannahmen werden getroffen und bilden die Grundlage des eigenen Über- 
wachungssettings, das rein exemplarischen Charakter hat, ab: 

• Aller Text eines Datenstroms oder einer Textkollektion ist grundsätzlich dem Gener- 
alverdacht ausgesetzt, verdächtiger Text nach einer bestimmten Kategorie zu sein. 
Eine Unterscheidung nach Diensten oder konkretem Textinhalt unterbleibt. 

• Aller Text wird durchsucht, um Verdacht schöpfen zu können: dies qualifiziert die 
Methodologie als eine der Massenüberwachung, weil unabhängig von einem Verdacht 
und ohne Anlass, in möglichst vielen Daten nach Verdachtsmomenten gesucht wird. 

• Als Texteinheit gelten Dokumente, wie sie von Websuchmaschinen indexiert werden: 
das sind beispielsweise HTML-Seiten, PDF-Dokumente, Bilder oder Dateien der Tabel- 
lenkalkulation; prinzipiell können das alle Dateien sein, die sich textuell durchsuchen 
lassen. 

• Es wird angenommen, dass Dokumente dieser Art auch in den Datenströmen von 
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gewöhnlichen Internet-Usern auftreten können. 

• Es wird nicht davon ausgegangen, dass Verdächtige konkret schon bekannt sind: 
diese sollen erst gefunden werden. Das heisst gleichzeitig, dass keine zusätzliche 
Suche nach konkreten Telekommunikationsmerkmalen oder Metadaten vorgenommen 
werden soll, wie sie mit formalen oder Strong-Selektoren vollzogen würde. Stattdessen 
kommen rein inhaltliche, oder “Soft”-Selektoren zum Einsatz. 

• Es muss eine Vorstellung davon entwickelt werden, was verdächtiges Textmaterial 
an der Oberfläche auszeichnet, um textuell durchsuchbare Daten einer Auswahl 
verdächtigen Materials zuzuführen. 

• Es wird angenommen, dass sich noch unbekannte Verdächtige gleich oder ähnlich 
ausdrücken wie bereits bekannte Verdächtige. 

• Soft-Selektoren werden folglich aus Textmaterial generiert, das bekannten Verdächti- 
gen zugesprochen wird. 

• Selektoren in diesem Szenario sind Wörter (einzeln, in bestimmter Wortreihenfolge 
oder Kombination), welche zur Suche nach verdächtigen Texten genutzt werden. 


3.2 Trainingsdaten 

Diese Sektion beschreibt die Auswahlkriterien von zwei Trainingskorpora, die zur Gener- 
ierung der Soft-Selektoren genutzt werden, sowie die dafür nötigen Aufbereitungsschritte 
des Trainingsmaterials. 


3.2.1 Auswahlkriterien 

Der Schweizer Geheimdienst NDB führt alljährlich Berichte über die “Sicherheit Schweiz” 
durch, worin über die Jahre sichtbar [74, 75] ist, dass namentlich zwei Gruppen auffallen, 
welche die “links-”, respektive “rechtsextreme” Szene dominieren: 

• Revolutionärer Aufbau Schweiz RAS 71 (im Folgenden Aufbau) mit einer Webpräsenz 
unter http : //www . aufbau . org /. 72 

• Partei National Orientierter Schweizer PNOS 73 (im Folgenden PNOS ) mit einer 
Webpräsenz unter http : //www.pnos . ch /. 74 


71 Es gibt auch eine (starke) Zürcher Sektion, die RAZ abgekürzt wird. 
72 Abruf: 28. November 2015. 

73 Es gibt auch diverse kantonale Sektionen. 

74 Abruf: 28. November 2015. 
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Die zwei gewählten Gruppen haben den Vorteil, dass sie medial offen in Erscheinung 
treten, so dass textuelles Webmaterial vorhanden ist, das als Trainingsmaterial genutzt 
werden kann, um (1) zumindest einzelne Texte, (2) womöglich ähnlich gesinnte Sub- oder 
Teil-Gruppen oder (3) (gänzlich) andere Gruppen zu finden, die wesentliche Aspekte ihres 
jeweiligen “politischen Extremismus” teilen. 75 Die Suche danach erfolgt unter Einsatz 
daraus generierter Soft-Selektoren, die zur Rasterung von Textkollektionen (von Daten- 
strömen) genutzt wird. Welche Daten das in der Wirklichkeit sein können, hängt von den 
Möglichkeiten ab, die Geheimdiensten zur Verfügung stehen. Weiteres hierzu ist im Kapitel 
4 zur Evaluation Thema. 


3.2.2 Aufbereitung 

Jedes Trainingskorpus ist in folgenden Schritten bezogen und aufbereitet worden, wobei 

Duplikate mittels fdupes(l) nach allen wesentlichen Schritten stets entfernt wurden: 

1. Die Webseiten werden mittels wget(l) heruntergeladen. 

2. Die Verzeichnisstrukturen werden aufgehoben: alle Dateien werden flach (nebeneinan- 
der) gespeichert. 

3. Duplikate werden durch fdupes(l) entfernt. 

4. Mittels Apache Tika wird von allen Dateien 76 der textuelle Inhalte extrahiert. 

5. Bestehendes, gleichbleibendes Navigationsmaterial am Anfang und Ende von Doku- 
menten (oder andere Textartefakte) werden mittels eines eigenen Skripts entfernt. 

6. Die Wörter werden normalisiert (Kleinschreibung ohne Umlaute). 

7. Stoppwörter werden in den drei Landessprachen Deutsch, Französisch und Italienisch 
entfernt; auch englische Stoppwörter werden entfernt. 

8. Mittels Apache Tika werden diejenigen Texte identifiziert und behalten, die (mehrheitlich) 
deutschsprachig sind. 

9. Die Dateien werden tokenisiert: die Dokumente bestehen fortan aus rein textuellen 
Dateien mit einem Token je Zeile. 

3.2.3 Die Trainingskorpora Aufbau und PNOS 

Di e Aufbau- und PNOS - Korpora entstammen den Webseiten aufbau.org und pnos.ch mit 

Stand vom 10. Oktober 2015 und weisen die in Tabelle 3.1 aufgezeigten Merkmale deskrip- 


75 Dies als Möglichkeiten davon, was im Spektrum der True-Positives möglicher Treffer liegt. 
,6 Das sind auch beispielsweise PDF-Dateien. 
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tiver Statistik (im Vergleich) auf. 77 


Merkmal 

Aufbau 

PNOS 

Korpusgrösse (roh) 

161MB 

15MB 

Korpusgrösse (roh; duplikatfrei) 

154MB 

15MB 

Anzahl Dateien (roh; duplikatfrei) 

3'282 

727 

Anzahl Dateien (rein textuell) 

1 '848 

676 

Anzahl Dateien (rein textuell; ohne Textartefakte) 

1 '478 

672 

Anzahl Dateien (rein textuell; deutschsprachig) 

L094 

574 

Anzahl Token 

361748 

154 '699 

Anzahl Types (Token-to-Type-Ratio) 

38 '405 (10.62%) 

25'835 (16.7%) 


Table 3.1: Deskriptive Statistik: Korpora Aufbau und PNOS 


3.3 Methode 1: TFIDF-Modell 

Beim TFIDF-Modell soll auf Basis relativ häufiger und gut über die Dokumente verteil- 
ter, aber nicht häufigster und überall (in allen Dokumenten) vorkommender Selektoren, 
die keine Stoppwörter enthalten, überwacht werden. Dies geschieht mit drei Arten von 
Selektoren: 

• Einzelworte 

• Wort-2-Gramme 

• Wortkombinationen (von 2-5 Worten) 

Für jeden der beiden Korpora Aufbau und PNOS werden die fünf besten Selektoren pro Art 
ausgewählt, so dass auf Basis jeden Korpus’ 15 Selektoren entstehen: zusammen werden in 
diesem Modell 30 Selektoren generiert. 


3.3.1 Grundlagen 

Das TFIDF-Modell stellt das klassische Modell 78 des Information Retrieval dar, wobei 
erstens eine Funktion tf besteht, um die Termfrequenz je Term und Dokument zu fassen. 
Zweitens besteht eine Funktion idf, um die Bedeutung eines Terms im Korpus 79 zu er- 


7 'Weiter unten in der Tabelle stehenden Ergebnisse sind jeweils auf die vorhergehenden Ergebnisse aufgebaut, 
das heisst wurden den dafür erforderlichen Prozessierungsschritten genauso unterworfen. Beispielsweise ist 
die Anzahl der Dateien, wo deutschsprachige Dokumente gemeint sind, eben auch frei von Textartefakten. 

78 Vgl. beispielsweise die deutsche Wikipedia vom 16. Oktober 2015 hierzu. URL https : / /de . wikipedia . o 
rg/w/index .php?title=Tf-idf-Ma%C3%9F&oldid=147045152. Abruf: 26. November 2015. 

79 Über alle Dokumente hinweg betrachtet. 
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messen, die wie folgt definiert ist: 

idf t (t,D) = log— (3.1) 

n t 

d bezeichnet ein konkretes Dokument, t ein Token, wobei D die Menge aller Dokumente 
darstellt (mit N als deren Mächtigkeit oder Anzahl der Dokumente). 

Das Produkt von tf und tfidf 

tfidf (d , t, D) = tf(d, t) * idft(t , D) (3.2) 

stellt den tfidf- Wert dar, welcher jene Terme hoch bewertet, die zwar häufig Vorkommen 
(tf- Wert), dies aber nur, wenn der Term in der Kollektion der Dokumente ebenfalls als 
bedeutend gilt (durch den idf- Wert), tfidf -Werte gelten immer für ein bestimmtes token t 
in Bezug zu einem Dokument d in einer Textkollektion D. 


3.3.2 Einzelworte 

Die einfachste Ausführung des TFIDF-Modells wählt je Korpus die fünf Einzelworte, die 
den höchsten TFIDF-Wert haben, als Selektoren aus. 80 

Beispiele von Selektoren hierbei sind (prozess) oder {trauen} beim Aufbau- und {rütli} 
oder {schweizer} beim PWOS-Korpus. 81 


3.3.3 Wort-2-Gramme 

Als Selektoren werden je Korpus fünf Wort-2-Gramme gesucht, wie sie innerhalb der einzel- 
nen Dokumente Vorkommen: im Rahmen des Au/hau-Korpus entstehen dabei 168’992 und 
beim PA/OS-Korpus 92’326 Auswahlmöglichkeiten für Selektoren. 

Beispiele resultierender Selektoren 82 sind schliesslich (antirassistische, aktion) (Ko- 
rpus: Aufbau) oder (tobias, hirschi ) 83 (Korpus: PNOS). 

3.3.4 Wortkombinationen von 2-5 Worten 

Bei diesem Selektionsverfahren werden alle Wortkombinationen - ohne Wortwiederholun- 
gen - von zwei bis fünf Worten berücksichtigt, was mathematisch Mengen entspricht, die in 

80 Zum genauen Auswahlverfahren, das durchgehend beim Überwachungsmodell 1 und 2 zur Anwendung 
kommt, siehe die Sektion 3.6. 

81 Weitere Selektoren nach dem Modell der TFIDF -Einzel worte sind Tabelle A.l zu entnehmen. 

82 Die restlichen Selektoren sind dem Anhang in Tabelle A.2 zu entnehmen. 

83 Als Named Entity aufgefasst handelt es sich hierbei um einen bekannten Akteur der PNOS-Gruppierung. 
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jeder möglichen Kombination entweder zwei, drei, vier oder fünf Elemente umfassen; die 
maximale Anzahl solcher Mengen beträgt entsprechend: 


E 


i = 2 


n\ 

(n — i)\i\ 


(3.3) 


Im theoretischen Beispiel: Wenn im Minimum n = 5 ist, oder in der gesamten Textkollektion 
hypothetisch wenigstens fünf distinkte Worte (Types) vorhanden sind, gegeben in T = 
{*i , * 2 , * 3 , ^ 4 j * 5 }» so lassen sich daraus alleine für 2-Wort-Kombinationen folgende zehn 
Selektoren Sj bis ,S)o konstruieren: 


Si = {h,t 2 } 

(3.4) 

S 2 = {ti, 

(3.5) 

S 3 = {fi, £ 4 } 

(3.6) 

S 4 = {ti,t 5 } 

(3.7) 

S 5 = {f 2 , ^ 3 } 

(3.8) 

Se = {t2,f4} 

(3.9) 

S 7 = {t 2 ,h} 

(3.10) 

Ss = {t3,U} 

(3.11) 

S 9 = {f3, h} 

(3.12) 

■SlO = { f-4 , tö} 

(3.13) 


Hinzu kommen weitere zehn Selektormengen Sji bis S 20 als 3 -Wort-Kombinationen, deren 
fünf als 4- Wort-Kombinationen (S 21 bis S 25 ) und zuletzt der Selektor als Selektormenge 
S 26 = T, der alle Elemente t\ bis tr, fasst: in der Summe also 26 Selektoren für einen Korpus, 
der aus nur fünf Worten besteht. Ist die Textkollektion sogar aus nur einem Dokument 
konstituiert, so wird klar, dass es mit unserem einfachen Setting 26 verschiedene Arten 
gibt, dieses eine Dokument zu “filtern”. 

Es entstehen aus dem Aufbau -Korpus Selektoren 84 wie {8 . , märz), {abdallah, ibrahim}; 
oder {1 . , august} und {heinz, kaiser} aus dem PWOS-Korpus. 


3.4 Methode 2: Verdachtssprache- Modell 

Beim korpuslinguistisch motivierten Verdachtssprache-Modell wird entsprechend den Be- 
funden von Ebling et al. [21] davon ausgegangen, dass es sprachliche Indikatoren dafür 


84 Weitere Selektoren sind im Anhang mit Tabelle A.3 sichtbar. 
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geben kann, dass in einem Text “politischer Extremismus” vorliegt. 

Es werden dabei in den zwei Trainingskorpora Wortkombationen gesucht, die nach dem 
gleichen Verfahren wie beim TFIDF-Modell ausgesucht werden, allerdings mindestens 
ein Inhaltswort als Indikator enthalten müssen, dass die Ausdrücke als intensivierend, 85 
skandalisierend oder verschwörend erscheinen lässt. 

Bei dieser Methode entstehen für jedes Trainingskorpus 30 Selektoren, die Wortkom- 
binationen von zwei bis fünf Worten der folgenden Art repräsentieren: 

• intensivierend (generell) 

• intensivierend (absolut) 

• intensivierend (hoch) 

• intensivierend (extrem hoch) 

• skandalisierend 

• mit Verschwörungsvokabular 


3.4.1 Grundlagen 

“Politischer Extremismus” wird gemäss Ebling et al. [21] in vier Dimensionen angenommen: 

1. Ablehnung des demokratischen Verfassungsstaates 

2. Dogmatismus und Commitment 

3. Verschwörungstheorien 

4. Fanatismus: Bereitschaft zur gewaltsamen Propagierung und Durchsetzung der er- 
streben Ziele 

Es wird davon ausgegangen, dass eine Häufung von eindeutig skandalisierenden Begriffen, 
relativierenden oder intensivierenden Ausdrücken oder anderen Gradpartikeln “politischen 
Extremismus” anzeigen kann. 

Obwohl auch Wortreihenfolgen 86 oder -markierungen eine wesentliche Rolle spielen können, 
um beispielsweise Ausdrucksrelativierungen zu erkennen, 87 wird im Rahmen dieser Arbeit 
rein auf Wortkombinationen von zwei bis fünf Worten gesetzt, die mindestens eines der 


85 Hierbei in vier verschiedenen Stufen: generell, absolut, hoch und extrem hoch. 

86 Im Sinne der Bildung von Wort-n-Grammen. 

87 Zu nennen sind Beispiele wie ein Wort - etwa: Freiheit - in Anführungszeichen zu setzen oder von der 
“sogenannten Demokratie” zu sprechen. Das kann anzeigen, dass die bestehende Verfassungsordnung 
abgelehnt wird. 
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Wörter gemäss Tabelle 3.2 enthalten. 88 


Wortkategorie 

Beispiele 

Anzahl Wörter 

Intensivierer (generell) 

allererst, durchaus, ekelhaft, 
schlichtweg, schrecklich 

83 

Intensivierer (absolut) 

absolut, entschieden, komplett, 
schlichtweg, zweifellos 

39 

Intensivierer (hoch) 

besonders, gerade, merklich, 
solch, wesentlich 

22 

Intensivierer (extrem hoch) 

allerbest, ekelhaft, mega, 
traumhaft, unsaeglich 

40 

Skandalisierer 

begriffsstutzig, frivol, 
kindisch, Schwindel, 
unwahrhaftig 

892 

Verschwörungsvokabular 

eigentlich, entlarven, 
hinterzimmer , vorgaukeln, 
vormachen 

80 


Table 3.2: Verdachtssprache-Modell: Intensivierer, Skandalisierer und Verschwörungsvokabular 


3.4.2 Intensivierende Wortkombinationen 

Die Anzahl möglicher Selektoren beträgt für intensivierende Wortkombinationen vom Typ 
“generell”, “absolut”, “hoch” und “extrem hoch” 10’618, 8’979, 2’905 und 2’601, was den 
Aufbau -Korpus betrifft. 

Beispiele von Selektoren sind: 

• generell: {kriminalisiert, repression, stark} 

• absolut: {fluchthilf e, leisten, praktisch} 

• hoch: {kampf, mehrfach, stark} 

• extrem hoch: {f lüchtlingsaufnahme, möglichst, unattraktiv} 

Beim PA/OS -Korpus stehen für die Wortkombinationen vom intensivierenden Typ “generell”, 
“absolut”, “hoch” und “extrem hoch” 8’821, 6’842, 2’622 und 1’292 Selektoren zur Auswahl. 

Nach der Auswahl nach TFIDF-Mass bester Selektoren verbleiben beispielhaft folgende 
Selektoren: 

• generell: {meinungsf reiheit, punkten, stark} 

• absolut: {nationalen, probleme, rein} 

• hoch: {allzu, stark, systemeliten} 

ss Die Beispiele in der Tabelle stellen je fünf Wörter dar, die zufällig ausgewählt wurden und alphabetisch 
sortiert sind. 
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• extrem hoch: {einheit, völkische, weitestgehend} 

3.4.3 Skandalisierende Wortkombinationen 

Bei den skandalisierenden Kombinationen entstehen beim Aufbau-Korpus 6’254 und beim 
PNOS -Korpus 4’808 verschiedene Selektoren. 

Beispiele davon sind: 

• Aufbau', {angegriffen, grausam, unzählige, Zivilistinnen} 

• PNOS: { 261 , nutzlos, Volkes} 

3.4.4 Wortkombinationen mit Verschwörungsvokabular 

Die Anzahl Wortkombinationen mit Verschwörungsvokabular betragen im Aufbau - Korpus 
5’580 und im PNOS - Korpus 2’828. 

Zu den besseren Selektoren zählen nach eingesetztem TFIDF-Mass die Folgenden: 

• Aufbau: {angeklagten, dienen, eigentlich} 

• PNOS: {führen, gegner, lügen} 


3.5 Methode 3: LDA-Modell 

Die Methode der topikalischen Analyse setzt darauf, mit relativ vielen - thematisch zusam- 
menhängenden - Wörtern, Treffer zu erzeugen. 


3.5.1 Grundlagen 

Bei Latent Dirichlet Allocation LDA handelt es sich um ein Verfahren des Maschinellen 
Lernens ML - konkreter des Topic Modeling TM, das dazu dient aus einer Kollektion von 
Texten Topics (oder Themen) zu erstellen, die selber wiederum im Sinne eines generativen 
Ansatzes, die Textkollektion repräsentieren. Topics sind eine Menge von Wörtern, die in 
ihrem Zusammenhang den Anspruch erheben, ein - latentes, zwischen den Wörter liegen- 
des - semantisches Themenfeld der gesamten Textkollektion zu repräsentieren. Von der 
Inspiration her, lehnt es sich an bereits früher dargelegte Verfahren der Latent Semantic 
Analysis 89 LSA an, hat allerdings neben der linear-algebraischen auch eine stochastische 


89 Auch: Latent Semantic Indexing LSI 
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Basis, die bei den zumindest ursprünglichen Verfahren 90 von LSA fehlt. 91 Das Verfahren 
wurde von Blei 2003 [8] und mathematisch ausführlich beschrieben. Die mathematischen 
Grundlagen nur oberflächlich wieder zu geben, werden dem komplexen Verfahren allerd- 
ings einerseits nicht gerecht, andererseits hat diese Arbeit auch nicht den Schwerpunkt 
darauf, auf Verfahren des TM im Detail einzugehen, so dass - mangels Möglichkeit der 
mathematischen Komplexität im Rahmen dieser Masterarbeit gerecht zu werden - darauf 
verzichtet wird. 

Zu beachten ist aber, dass bei standardmässigem TM die Wortreihenfolge keine Rolle spielt: 
als einzige Grenzen gelten Dokumente. Die Wörter, die innerhalb der Dokumente auftreten, 
werden als bag-of-words aufgefasst, so dass zwei Dokumente, die dieselben Wörter in der 
gleichen Auftretenshäufigkeit haben, diese jedoch in zwei völlig unterschiedlichen Reihen- 
folgen führen, als identisch aufgefasst werden, selbst dann, wenn sie etwas (wesentlich) 
anderes bedeuten. 92 

Bei LDA können diverse Parameter eingestellt werden, wobei die wichtigsten Parame- 
ter diese zwei sind: 

• Die Anzahl der gewünschten Topics. 

• Die Anzahl Wörter, die genutzt werden, um einen Topic zu konstituieren. 

Als gutes Beispiel, zu was TM mit dem LDA -Verfahren fähig ist, bietet sich ein Beispiel 
des “Content Mapping mit Topics Models” von Joachim Scharloth in seinem Blog [103] 
an, wo er die Themenschwerpunkte von “linken Szenen” anhand inhaltlicher Suchbegriffe 
einer indymedia.org-Webseite herausarbeitet und diese auch geografisch (für Deutschland) 
verortet. Einführend argumentiert er, dass beim BND (möglicherweise) eingesetzte Ver- 
fahren der inhaltlichen Suche direkt als Analyse gelten können, wenn sie mittels Verfahren 
des TM vollzogen werden. 


3.5.2 Kombinationen zu 2, 3, 5, 8 und 10 Worten 


Im Rahmen dieser Arbeit wurde, um eine unbegründete Willkür der Auswahl spezifis- 
cher Topics einzuschränken, auf Standardeinstellungen des eingesetzten TM- Werkzeugs 93 
gesetzt und die Anzahl Topics zum einen fest auf 5 eingestellt, und die Zahl der Wörter 

90 Es existiert eine Erweiterung, die als probabilistic Latent Semantic Analysis pLSA bekannt ist. 

91 Bei LSA werden Dokumente einer Kollektion mitsamt ihren Termen in eine Matrix-Repräsentation über- 
führt und mittels Verfahren der Matrizen-Dekomposition in kleinere Bestandteile aufgespalten - mit 
Matrizenmultiplikation wird der Ursprung wieder hergestellt. Durch diese Komplexitätsreduktion werden 
wichtige - latent zusammenhängende — Terme sichtbar. Diese konstituieren genauso wie bei LDA einen 
Bedeutungszusammenhang, deren Güte aber nicht optimal ist, wie Blei in seinem Paper darlegt. 

92 Vgl. kritisch hierzu Bubenhofer und Scharloth (2015). [11, S.13] 

93 Zum Einsatz kam das Topic Modeling Tool, das das bekannte maZZef-Backend verwendet, LDA (mit gibbs- 
Sampling) zu betreiben. Vgl. URL https : / /code . google . com/p/topic-modeling-tool/. Abruf: 15. 
November 2015. 
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für jeden der Topics entsprechend auf 2, 3, 5, 8 oder 10 gesetzt. Das heisst, dass mit 
Wortkombinationen von mindestens zwei, höchstens aber zehn Worten gesucht wird. 

Selektoren, die durch dieses Verfahren generiert werden, sehen semantisch vielversprechend 94 
aus; je ein Beispiel: 

• Ein 5-Wort-Topic aus dem Au/5au-Korpus: {trauen, Zürich, kapitalismus, märz, 
demo} 

• Ein 10-Wort-Topic aus dem PiVOS- Korpus: {schweizer, volk, Schweiz, politik, 
Volkes, leben, grund, armee, meinung, politische} 


3.6 Selektorenauswahl für die Methoden 1 und 2 

Während bei der Überwachungsmethode 3 von Sektion 3.5 direkt nur fünf Selektoren für 
jedes der Selektorentypen von 2, 3, 5, 8 oder 10 Worten generiert wird, muss die Auswahl 
bei den Überwachungsmethoden 1 und 2 gemäss Sektionen 3.3 und 3.4 zunächst noch 
erfolgen. 

Es wird dabei wie folgt vorgegangen: 

1. Für jeden Ausdruck 95 t und Dokument d der Textkollektion D des einen oder anderen 
Trainingskorpus’ wird der TFIDF-Wert berechnet. 

2. Für jedes Dokument d werden die fünf höchsten TFIDF-Werte in einer eigenen Datei 
gespeichert. 

3. Über alle Dateien aus 2. werden diejenigen fünf /-Ausdrucke ausgewählt, die absolut - 
über die gesamte Kollektion verteilt - am häufigsten Vorkommen. 


94 Andere Selektoren sind unter A.1.3 zu finden. 

95 Das können entsprechend den Modellen Einzelworte, Wort-2-Gramme oder Wortkombinationen (bis zu fünf 
Worte) sein. 
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Wenn also diese Daten offensichtlich nicht ausreichen, um einen Anschlag zu 
verhindern - welche Daten um alles in der Welt hofft man dann per Gener- 
alüberwachung zu bekommen ? Die rationale Herangehensweise wäre das Einge- 
ständnis, dass es nicht darum geht, neue Daten zu bekommen, sondern die längst 
vorhandenen besser auszuwerten. Die scheinrationale Herangehensweise aber 
wird sich durchsetzen: mehr Überwachung. Mehr Daten. Die Irrationalität dahin- 
ter lautet: Wir finden die Nadel im Heuhaufen nicht, also brauchen wir mehr Heu. 

- Sascha Lobo am 25. November 2015 [63] 

Dieses Kapitel führt auf der einen Seite eine Simulation von XKey score (mit beschränkten 
Funktionsumfang) und öffentlich (web-)indexiertem Material durch, um aufzuzeigen, welche 
Art von Inhalten angesteuert werden müssten, um bei der Massenüberwachung in die 
engere Auswahl zu kommen; auf der anderen Seite wurde auch ein eigener Datenstrom 
für zehn Tage erzeugt, um ein realistisches Überwachungsszenario herbeizuführen, reale 
private Daten zu überwachen sowie Sparse-Data-Problematiken zu thematisieren. 


4.1 Zum Umfang der Evaluation 

Die Evaluation hat den folgenden Umfang: 

• In der Summe der drei Modelle zur Massenüberwachung werden 70 Selektoren je 
Trainingskorpus ( Aufbau ; PNOS) evaluiert: in der Summe sind das 140 Selektoren. 

• Es werden vier Suchmaschinen als Evaluationskorpora genutzt und der eigens er- 
stellte Datenstrom als weiteres (persönlich differenziertes) Evaluationskorpus beige- 
zogen: insgesamt fünf Evaluationskorpora. 

• Im Produkt ergeben sich 700 zu vollziehende Selektionen. 

- Bei den Suchmaschinen werden je Selektion (oder Suchabfrage) auf der ersten 
Ergebnisseite die fünf obersten Ergebnisse ausgewählt, sofern sie (1) nicht direkt 
das Trainingsmaterial reflektieren oder (2) unplausibel sind. Ersteres bedeutet, 
dass ein durch das PNOS-Trainingsmaterial generierter Selektor dann einen 
ungültigen Treffer produziert hat, wenn dieser Treffer ein Treffer unter pnos.ch 
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darstellt oder die Inhalte offensichtlich direkt von da stammen. 96 Zweitens ist 
ein Treffer dann ungültig, wenn bei der Betrachtung des Treffers auffällt, dass 
auf Grund der dynamischen Natur 97 der Webseite oder wegen Eigenheiten der 
Suchmaschine, der Treffer unsinnig ist. 

- Beim überwachten Datenstrom wird analog unter Einsatz einer lokalen Such- 
maschine vorgegangen. 

- Je nach Spezifizität der Selektoren und der Grösse und begrifflichen Breite 
der Evaluationskorpora sind damit - gegeben (gültige) Treffer - bis zu 3’500 
Ergebnisse möglich, die zu evaluieren wären. 


4.2 Die Evaluationssysteme und -daten im Einzelnen 

Die vier Suchmaschinen und der eigene Datenkorpus - entstanden durch Überwachung 
der eigenen Internetleitung - werden hier soweit nötig bekannt gemacht. Unbeantwortet 
bleibt in einigen Fällen - wie bei StartPage oder DuckDuckGo - die Frage, wie gross das 
Datenkorpus jeweils ist. 


4.2.1 Whitenet-Index: DuckDuckGo 

Bei DuckDuckGo handelt es sich um eine Suchmaschine, die als alternative zur Google- oder 
StartPage-Suchmaschine insbesondere im Nachgang der Snowden-Enthüllungen populär 
geworden ist und gemäss eigenem Fact-Sheet weder die eigenen User überwacht noch 
eine “filter bubble” entstehen lässt, wonach Benutzer auf Grund ihres eigenen Surf- und 
Suchverhaltens oder anderer Merkmale, mit spezifischen Ergebnissen konfrontiert werden. 
[19] 

Die Ergebnisse sollen sich aus 400 verschiedenen Datenquellen zusammensetzen, die 
allerdings nicht im Detail benannt werden, so dass keine Klarheit darüber besteht, wie 
gross der Datenkorpus - in Anzahl (indirekt) indexierter Dokumente - ist. [20] 


4.2.2 Whitenet-Index: StartPage 


Bei StartPage handelt es sich um eine Suchmaschine, die im Backend die weltweit populäre 
Goog/e-Suchmaschine verwendet: sie hat gegenüber direkten Goog/e-Suchen den Vorteil, 
dass die Suchabfragen frei von personenbezogenen Details (anonymisiert) abgesetzt werden. 


96 Ein Treffer ist allerdings valide, wenn ein Selektor zum Beispiel aus dem Aufbau-Korpus induziert ist, und 
einen pnos.ch-Treffer erzeugt. 

9 'Damit ist gemeint, dass sich die Inhalte offensichtlich häufig ändern: beispielsweise bei Feeds oder bei 
Webseiten, die sich mit jedem Abruf ändern. 
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Insbesondere sollen weder Cookies noch IP-Adressen bei Suchabfragen gespeichert werden. 

[ 112 ] 

Dies ist deshalb wichtig, weil die GoogZe-Suchmaschine bekanntlich über viele Kriterien 
verfügt, Suchbegriffe entsprechenden -resultaten zuzuordnen. Browser-, Personen-, Länder- 
bezogene Effekte werden unter Einsatz von StartPage möglichst minimiert. 

Die Grösse des Suchindexes ist nicht bekannt, weil dieser direkt von dem von Google 
abhängt. Allerdings eröffnet die Suche mit häufigen Einzelbuchstaben wie “a” oder “e” , 
dass es sich um mindestens Milliarden von indexierten Inhalten handeln muss. 

Was beachtet werden muss, ist dass durch Regelungen wie das “Recht auf Vergessen” 
in der Europäischen Union oder eigenen Vorstellungen, angenommen werden muss, dass 
viele Inhalte, die eigentlich im Whitenet existieren, nicht angezeigt werden, weil sie zensiert 
sind. 


4.2.3 Darknet-Index: Not Evil 

Mit Not Evil besteht eine Suchmaschine im Darknet des Tor-Netzwerks, die per 30. Novem- 
ber 2015 unter der URL http : //hss3uro2hsxfogfq. onion/ abrufbar ist. Eigenen 
Angaben - zuunterst auf der Suchmaschine gemäss - sind rund 15.8 Millionen Links index- 
iert, deren URLs auf die Endung “.onion” enden, weil Not Evil strikte nur nach Inhalten 
sucht, die als sogenannte Hidden-Services betrieben werden. Das sind Serverdienste mit 
beispielsweise Webinhalten, deren genauer Standort auf Grund des Onion-Routing-Prinzips 
des Tor-Netzwerks nicht ohne Weiteres bekannt ist. 


4.2.4 P2P-lndex: YaCy 

YaCy ist eine Suchmaschine nach dem peer-to-peer-Prinzip, wonach die indexierten Inhalte 
nicht - wie bei den anderen Diensten - zentral von einem Anbieter kommen, sondern 
dezentral von verschiedenen peers zur Verfügung gestellt und laufend verändert werden. 

Im offen zugänglichen Netzwerk “free world” sind bei letzter Betrachtung 98 - je nach 
Zeitraum - zwischen 313 (Tagesbasis) und 1T06 (Monatsbasis) peers daran beteiligt, Doku- 
mente für eine Websuche zu indexieren. Die Anzahl indexierter Dokumente beträgt knapp 
2 Milliarden. 

Wird Ya Cy - S oft war e auf dem eigenen Rechner installiert, so können standardmässig unter 
der URL http: //localhost : 8090 direkt Websuchen abgesetzt werden. Zudem ist es 
möglich, sich selber als peer zu beteiligen und am dafür nötigen Web-Crawling teilzunehmen, 

98 Stand: 30. November 2015. 
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den Webindex zu vergrössern. 

Im Gegensatz zu anderen Suchmaschinen kann bei YaCy - nicht zuletzt durch den Fakt, 
dass es sich um quelloffene Software handelt - davon ausgegangen werden, dass die Ergeb- 
nisse zensurfrei sind. 


4.2.5 Privat-Index: Eigener 10-Tages-Datenstrom “Own” 

Um ein persönlich differenziertes Evaluationskorpus (im Folgenden Own genannt) aufzu- 
bauen, das insbesondere einem realen Szenario entspricht, wie es zum Beispiel mit der 
Schweizer Kabelaufklärung nach Inkraftsetzung des Nachrichtendienstgesetzes möglich 
würde, wurde die Idee umgesetzt, eigenen Datenverkehr mitzuschneiden. 99 

Über 10 Tage 100 habe ich meinen eigenen 101 Internetanschluss in Selbstüberwachung unter 
Einsatz eines a/ix-Boards 102 mitgeschnitten. Zum Einsatz kam das Werkzeug tcpflow(l) 103 , 
das Dekoder dafür bietet, aus den erfassten Rohdaten in Echtzeit Dokumente wie Bilder, 
PDF- oder HTML-Dateien zu extrahieren. 

Insgesamt wurden 21GB Daten erfasst, verteilt auf 256’097 Dateien, ohne Duplikate 
deren 212’045. 104 91’210 Dateien sind gemäss /iZe(%)-Kommando 105 Daten rein binärer 
Natur, ohne bekanntes Dateiformat: bei der Betrachtung ohne Duplikate bleiben 89’873 
Dateien. 106 Diese sind linguistisch nicht ohne Weiteres zugänglich und mit den den hier 
genutzten Selektoren nicht durchsuchbar 107 , wenn auch trotzdem textuelle Inhalte in 
diesen Dateien enthalten sein können. Wird mittels s£rmgs(%) -Kommando das eigentlich zu 
analysierende Korpus 108 in eine rein textuell fassbare Version überführt, zählt der Korpus 
208’577 Dateien. 109 


"Die mitgeschnittene Sicht entspricht der eines Internet-Zugangsproviders und aller weiteren Akteure, die 
dessen Datenströme erhalten. 

100 Vom 29. September bis zum 9. Oktober 2015. 

101 Von meiner Familie und mir - insbesondere meiner Lebenspartnerin und mir - genutzt. 

102 AMD Geode - Gerät mit 256MB RAM und FreeBSD 5.2-RELEASE- Betriebssystem. 

103 Vgl. gif/mb-Repository. URL https://github.com/simsong/tcpflow. Abruf: 23. November 2015. 

104 Allerdings bei etwa gleichbleibender Gesamtdateigrösse von rund 21GB. 

106 Vgl. im Anhang D.1.1 

106 Vgl. im Anhang D.1.2 

107 Zu betonen an dieser Stelle aber sei, dass beispielsweise XKey score fähig ist, mittels “fingerprints” Muster 
in binären Datenströmen zu erkennen, die gegebenfalls eine (weitergehende) Dekodierung erlauben, um 
linguistisch verwertbare Daten freizugeben. 

108 Ohne Duplikate 

109 Diese Form des Oum-Korpus ist im Ordner data/eval/fulltake/4_raw_strings_uniq abgelegt: die 
Gesamtgrösse des Korpus nur mit Text beträgt rund 12% der ursprünglich rohen Grösse: 2.6GB. Einige 
Dateien werden zu Duplikaten, weil durch die rein textuelle Repräsentation ihre Substanz identisch wird. 
Das können Dateien sein, die sich binär unterscheiden, in ihren textuell repräsentierten (und spärlichen) 
Meta-Informationen hingegen identisch sind. Auch können Duplikate dadurch entstehen, dass unmittelbar 
keine textuellen Informationen extrahierbar sind. 
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Zur Indexierung und die Suche wurde die quelloffene, lokal installierbare Suchmaschine 
Recoll 110 genutzt, welche Treffer nach dem BM25-Algorithmus m sortiert. 


4.3 Manuelle Annotation 

4.3.1 Durchführung der manuellen Annotation 

Der Annotation zu Grunde standen Treffer in Form von URLs in einer ODS-Tabelle. Die 
Annotatoren hatten die Aufgabe, jeden dieser Treffer als entweder “links-” oder “rechtsex- 
tremistischen” Inhalt einzustufen 112 und ihn damit als True-Positive zu qualifizieren. 

Obwohl jede URL eindeutig einem bestimmten Überwachungsmodell und innerhalb davon 
einem konkreten Aufbau- oder PNOS-induziertem Selektor zugewiesen werden kann, wurde 
zur Verhinderung durch diese Informationen beeinflusster Entscheide, jeder Bezug zu 
solchen Angaben entfernt und die URL-Liste zudem alphabetisch geordnet. Damit sollte 
verhindert werden, dass (1) (stark unterschiedliche) URLs bloss auf Grund ihrer Nach- 
barschaft ähnlich annotiert werden und (2) umgekehrt Annotationen aber vereinfacht 
werden, die offensichtlich schon auf Basis der URL miteinander Zusammenhängen: in 
Fällen, wo beispielsweise Unterseiten einer Webseite referenziert werden, war diese Präsen- 
tation für eine konsistente Annotation hilfreich. 

Grundsätzlich existieren drei Arten von URLs: 

• Gewöhnliche URLs, die offen zugänglich sind. 

• URLs mit dem Host-Namen “alix”, welche Ergebnisse des eigenen Evaluationskorpus 
Own darstellen. 

• URLs mit der Domain-Endung “.onion”, die nur über das Tor-Netzwerk zugänglich 
sind. Diese stehen im Zusammenhang mit Treffern aus dem Not Evil- Korpus. 

Als Annotatoren haben der Autor (im Folgenden als Annotation H) und seine Lebenspart- 
nerin (im Folgenden als Annotation S) gearbeitet: es wurde unabhängig und ohne Absprache 
annotiert. 

Zu betonen ist allerdings, dass vorgängig für die Annotationen 113 H und S 770 Treffer 

110 Vgl. Webseite von Recoll. URL http://www.lesbonscomptes.com/recoll/. Abruf: 23. November 2015. 
111 Eine TFIDF-Variante, um Suchresultate zu sortieren. 

112 Dafür wurde in einem Feld “L” oder “R” (exklusiv) eine 1 eingetragen, um eine einfache Zählung zu erlauben. 

113 Ausgeführt allerdings nur vom Annotatoren H, womit nicht ausgeschlossen werden kann, dass einige 
True-Positives mehr möglich gewesen wären: dies (1) allerdings auf dafür sehr fragwürdigen Seiten 
beziehungsweise mit äusserst fragwürdiger Urheberschaft (für eine Einstufung als “links-” oder “rechtsex- 
trem”) und (2) mit sehr geringer Wahrscheinlichkeit. 
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oder rund 34.53% aller validen Treffer manuell als False-Positives markiert wurden, weil 
diese offenkundig nichts mit “Links-” oder “Rechtsextremismus” zu tun haben sollten 114 , 
sondern allenfalls darüber berichten; es sind dies Inhalte (vor allem HTML-Dateien) der 
folgenden und abschliessenden Art: 

• Konkrete Blogs, die beiden Annotatoren bekannt sind und entweder dem CCC- oder 
der Piratenpartei Schweiz zuzuordenen sind: blog.fdik.org, blog.fefe.de, blog.fukami.io 
und Substanz. davidherzog.ch. 

• Verbreitete, bekannte Zeitungen 115 , bis mithin “Systemzeitungen” 116 : 20min. ch, 
abendblatt.de, ardmediathek.de, *. ard.de, arte.tv, bazonline.ch, bernerzeitung.ch, 
blick.ch, br.de, bzbasel.ch, derbund.ch, derstandard.at, diepresse.com, dw.com, golem.de, 
focus.de, handelsblatt.com, handelszeitung.ch, kleinezeitung.at, kröne. at, future- 
zone.at, hochschulanzeiger.faz.net, tagesanzeiger.ch, tageswoche.ch, rbb-online.de, 
rp-online.de, schweizer-illustrierte. ch, *.sonntagszeitung.ch, spiegel.de, srf.ch, stern.de, 
stuttgarter-zeitung.de, *. sueddeutsche.de, watson.ch, *.nzz.ch 117 , *.berliner-zeitung.de, 
vice.com, zol.ch und swissinfo.ch. 

• Metaseiten, die News indexieren, sofern diese als solche offensichtlich erkannt wurden: 
news. google.*, pressekompass.net sowie Einzelseiten im Ouw-Datenkorpus. 

• Regierungsseiten oder Staatsplattformen: baselland.ch, *.be.ch, ch.ch, bern.ch, bpb.de 118 , 
*.admin.ch, erlangen.de, pariament. ch, *.bundestag.de, stadt-zueri ch.ch, *.bund.de, 

*. nrw.de, vaud.ch, vd.ch, *.bs.ch, glarus.ch und deggendorf.de. 

• Gerichtsseiten: bundesverfassungsgericht.de 

• Firmenwebseiten: schweizer-metallbau.ch, toppreise. ch, zugergrafik.ch, zattoo.com, 
sudwerk.ch, microspot.ch, naturkundemuseum-berlin.de und home.ch. 

• Wohlbekannte Community-Webseiten: debian.org, holarse-linuxgaming.de, *.wikipe- 
dia.org, php.net, selfphp.net und *. freifunk.net. 

• Verbände: Amnesty 119 , FSFE 120 , konsumentenschutz.ch, humanrights.ch, redcross.ch 

114 Es kann dies freilich nicht völlig ausgeschlossen werden. 

115 Wenn offenkundig Forenbereiche oder Kommentarbereiche von Online-Artikel referenziert werden, sind diese 
in der Liste nicht enthalten: sie wurden der doppelt durchgeführten Annotation auf Einzelbasis unterworfen. 
Es ist allerdings zu beachten, dass beispielsweise gemäss Aussagen im SRF Medienclub vom 10. November 
2015 auf Basis von unbekannten Stichworten beträchtliche Anteile von Kommentaren bei Online-Zeitungen 
ausgesondert werden, wo vermutet wird, dass die Aussagen einer unbekannten Norm abweichen. Konkret 
wird das in einem Blog-Eintrag von Volker Birk aufgezeigt. [5] 

116 Damit sind Zeitungen gemeint, die vorwiegend die herrschende Meinung repräsentieren und Minderheitsmei- 
nungen wenig, keine oder nur negative Publizität bieten. Es kann angenommen werden, dass sie mithin die 
Funktion erfüllen, das herrschende System zu stützen und damit diametral den Interessen von “Links-” und 
“Rechtsextremisten” entgegenstehen. 

11 'Darunter auch beispielsweise campus.nzz.ch. 

118 Bundesamt für politische Bildung [Deutschland]. 

119 In Form von zwei YouTube-Videos. 

1J0 Eine HTML-Seite im Own-Korpus. 
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und transparency.ch. 

• Diese Bücher 121 sind auch direkt als False-Positives markiert: “Common Wealth. Das 
Ende des Eigentums” (Hardt et al. 2010), “Privacy-Handbuch” (Doctorow et al. 2013), 
“Little Brother” (Doctorow 2009), “Inside Wikileaks” (Domscheit-Berg 2011), “Das 
Neue Spiel. Strategien für die Welt nach dem digitalen Kontrollverlust” (Seemann 
2014), “Die Satanischen Verse” (Rushdie 1989 [1988]), “Ulysses” (Joyce 1975) 

• UZH-Forschungsdokumente vom RWI 122 , dem IPZ 123 , dem IVR 124 und dem Psycholo- 
gischen Institut. 

• Forschungspublikationen: Einerseits ein Soziologie-, 125 andererseits ein Linguistik- 
Paper. 126 

• Weitere Dokumente universitärer Hochschulen: Bamberg, Münster, Siegen, Köln, 
Konstanz, Stuttgart, Leipzig, Hamburg und Wien. 

• Publikationen von Verlagen: link.springer.com 

• Weitere wissenschaftliche Publikationen: arxiv.org 

• Seiten für touristische Zwecke oder Reisebuchungen: booking.com, swisscommu- 
nity.org, myswitzerland.com, fluege.de und flughafen-zuerich.ch. 

• Wörterbuch- oder Übersetzungsseiten: duden.de, *. wiktionary.org, dictionary.reference.com, 
dictionary.reverso.net, *. thefreedictionary.com, dict.leo.org, linguee.de und wirtschaft- 
slexikon.gabler.de. 

• Webseiten von (Schweizer) demokratischen Volksinitiativen, wo Volksrechte im Rah- 
men der Verfassung wahrgenommen werden: Konzernverantwortungsinitiative und 
Wohn-Initiative. 

• Nicht-linguistisches Textmaterial, JavaScript-Code und -Kommentare, CSS-Code und 
-Kommentare, blosse Wortlisten 127 oder die Meta-Informationen von Bildern. 

Im Gegenzug wurden einige harmlos anmutende Webseiten oder Plattformen zur näheren 
Evaluation freigegeben, weil konkrete Beiträge “extremistisch” eingestuft werden kön- 


121 Sie sind allesamt dem Not Evil- Korpus zuzurechnen. 

122 Rechts wissenschaftliches Institut 

123 Institut für Politikwissenschaft 

124 Institut für Völkerrecht und ausländisches Verfassungsrecht 

125 Ironischerweise ein vom Autor dieser Arbeit selber geschriebenes Dokument, das sich mit Liquid Democracy 
beschäftigt und im Own-Korpus als PDF liegt: Liquid Democracy - Zwischen repräsentativer und direkter 
Demokratie. Grundlagen, Umsetzungen und Diskussion bezüglich Chancen und Gefahren. Sociology in 
Switzerland. Democracy in Politics and Social Life. August 2011. URL http : / /socio . ch/demo/t_marq 
ues .pdf. Abruf: 26. November 2015. 

126 Ausgerechnet ist dies die Publikation, die der Überwachungsmethode 2 dieser Arbeit als theoretische 
Grundlage dient. [21] 

127 Es wurden Dokumente unter cd.textfiles.com als Treffer erzeugt, die diesen Charakter aufweisen. 
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nen, diese konkret personenbezogene Webseiten von “extremistischen” Personen in der 
Einordnung der Geheimdienste enthalten könnten, wo sich diese selber darstellen oder 
aber Gruppen sich exponieren, die diese Plattform zur Präsentation, Kommunikation und 
Rekrutierung nutzen; im Fokus des Verdachts steht also der da vorhandene User-Generated- 
Content UGC und nicht die Plattform selber; solche Plattformen können sein: 

• Social-Media-Plattformen: xing.com, facebook.com, youtube.com, vimentis.ch, red- 
dit.com und bandcamp.com. 

• Firmen: amazon.com 128 

Grenzfälle von Seiten, die zwar anerkannt und bekannt sind, dennoch (im Einzelfall 
Plattform für) “links-” oder “rechtsextremistische” Positionen enthalten können und deshalb 
zur näheren Evaluation freigegeben sind, bestehen ebenso und sind: 

• Zeitungen: woz.ch, taz.de 

• Parteien: pda.ch, svp.ch 

4.3.2 Statistik der manuellen Annotation 

Mit den 770 vorbestimmten False-Positives gemäss dem Abschnitt 4.3.1 gilt es zusätzlich 
1’460 Inhaltselemente auf Einzelbasis seitens der zwei Annotatoren manuell zu überprüfen, 
wobei die Summen der Ja-Annotationen in Tabelle 4.1 festgehalten sind: Hl bezeichnet 
dabei die Anzahl der Ja-Annotationen für die Annotation H innerhalb vom “Linksextremis- 
mus”, während Sr entsprechend die Anzahl Ja-Treffer bezeichnet, welche die Annota torin 
S für den Bereich “Rechtsextremismus” gesehen hat. 


H l 

Sl 

Hr 

Sr 

379 

350 

103 

62 


Table 4.1: Manuelle Ja- Annotationen H und S nach “Links-” (L) und “Rechtsextremismus” (R) 


Um die Übereinstimmung zu messen, wurde das Inter-Annotator-Agreement IAA auf Basis 
des Kappa-Koeffizienten 129 zwischen den zwei Annotationen H und S bestimmt und jeweils 
gesondert nach “links-” und “rechtsextremen” Treffern durchgeführt. 


Die Formel hierfür lautet: 


K = 


Po- Pc 
1 - Pc 


(4.1) 


128 Auf Grund der da vorhandenen Reviews und auf Grund der Tatsache, dass beispielsweise in den USA Bücher 
auf dem Markt sind, welche nach europäischem Verständnis dermassen “extremistisch” sind, dass sie keinen 
Verleger finden, in den USA aber auf Grund des dort stark gewichteten Grundsatzes des “free speech” 
durchaus publiziert werden mögen. 

129 Nach Cohen Kappa 
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Po bezeichnet dabei die Wahrscheinlichkeit der konkreten Übereinstimmung zwischen H 
und S, wohingegen p c die Wahrscheinlichkeit bezeichnet, dass H und S zufällig übereinstim- 
men. 


Es resultieren die Erwartungswerte von Tabelle 4.2: 


Po L 

Po R 

Pc L 

Pc R 

94.66% 

96.46% 

72.64% 

92.86% 


Table 4.2: Erwartungswerte H und S für “Links-” (L) und “Rechtsextremismus” (R) 


Es wird deutlich, dass die Übereinstimmung überzufällig ist (insbesondere im “linksex- 
tremen” Bereich). Die Wahrscheinlichkeitsbereiche sind deshalb hoch, weil die meisten 
Inhalte auf Grund der relativ hohen Rate an False-Positives weder dem “Links-” noch dem 
“Rechtsextremismus” zufallen. 

Die «-Werte, die resultieren, sind in Tabelle 4.3 zu entnehmen, welche im “links-” eine 
substanzielle und im “rechtsextremen Bereich” eine zumindest moderate Übereinstimmung 
begründen. [60] 



k l 

Kr 

Wert 

Beurteilung 

0.8 

Substanzielle Übereinstimmung 

0.5 

Moderate Übereinstimmung 


Table 4.3: Kappa-Werte “Links-” (L) und “Rechtsextremismus” (R) 


4.4 Ergebnisse 

In dieser Sektion werden die Ergebnisse der Evaluation, die manuell mittels zwei Annota- 
tionen durchgeführt wurde, quantitativ (statistisch) präsentiert. Die kritische Diskussion 
und Interpretation der Ergebnisse und auch deren Grundlagen erfolgt abschliessend in 
Kapitel 5. 


4.4.1 Trefferstatistik 

Von den maximal möglichen 3’500 zu beachtenden Treffer wurden 2’242 über alle Selektoren 
hinweg valide erzeugt: “bloss” 64.06% der maximal möglichen Treffer sind zur Evaluation 
somit überhaupt vorhanden, was heisst, dass in vielen Fällen ein Sparse-Data-Problem 
angezeigt ist, wobei die Unterschiede je nach Betrachungsweise (Evaluationssystem oder 
Überwachungsmodell) beträchlich sind. 
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4.4. 1.1 Nach Evaluationssystem 

Die Rangliste der meisten validen Treffer von den 700 je Evaluationssytem möglichen, 
wird - wenig überraschend - von StartPage angeführt, mit dem Oie «.-Datenkorpus als 
Schlusslicht, wo es am wenigsten “Substanz” gibt, fündig zu werden, wie aus Tabelle 4.4 
sichtbar wird. 


Evaluationssystem 

Treffer absolut (maximal) 

Treffer relativ 

StartPage 

649 (700) 

92.71% 

DuckDuckGo 

550 (700) 

71.43% 

YaCy 

480 (700) 

68.57% 

Not Evil 

339 (700) 

48.43% 

Own 

224 (700) 

32% 

Total 

2 '242 (3 '500) 

64.06% 


Table 4.4: Trefferstatistik: Nach Evaluations System 


4.4. 1.2 Nach Überwachungsmodell 

Wird nach dem Überwachungsmodell und die dadurch erzielten Treffer gefragt, so rangiert 
gemäss Tabelle 4.5 zuoberst das TFIDF-Modell. 


Überwachungsmodell 

Treffer absolut (maximal) 

Treffer relativ 

TFIDF 

593 (750) 

79.01% 

Verdachtssprache 

992 (1 '500) 

66.13% 

LDA 

657 (1 '250) 

52.56% 

Total 

2 '242 (3 '500) 

64.06% 


Table 4.5: Trefferstatistik: Nach Evaluations System 


Das Ranking muss allerdings aus verschiedenen Gründen mit Vorsicht betrachtet werden, 
weil mögliche Interpretationen der Güte deshalb nicht möglich sind, weil die Selektoren 
verschiedener Länge und auch Anzahl sind. Es bestehen weder alle Selektoren aus der 
gleichen Anzahl Wörter noch sind sie anderweitig in ihrer Natur direkt vergleichbar, noch 
kommen bei allen Modellen die gleiche Anzahl Selektoren zum Einsatz. Während die 
Anzahl der eingesetzten Selektoren - sofern sie sich in ihrem Wesen nicht fundamental 
unterscheiden - einen nur geringen Einfluss darauf haben mag, wie die Ergebnisse im 
Gesamtschnitt für das jeweilige Modell ausfallen, so ist die Tatsache, dass die Selektoren 
etwa des TFIDF-Modells wesentlich einfacher aufgebaut sind, sicherlich entscheidend dafür, 
zu erklären, weshalb diese mehr Ausbeute erreichen. Schliesslich gibt es beim TFIDF- 
Modell im einfachsten Fall Selektoren die aus simplen Einzelworten bestehen, wofür im 
Allgemeinen die Chance hoch ist, dass diese in einem der Evaluationskorpora anzufinden 
sind. 
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4.4.2 True-Positive-Statistik 


Für die True-Positve-Statistik gilt es zu beachten, dass im Wesentlichen zwei Masse P (für 
Precision) und S (für Score) zum Einsatz kommen, um die Performance der Modelle und 
ihrer Selektoren zu messen: 


P = 


TP 

TP + FP 


S = 


P 

VH 

PH 


( 4 . 2 ) 


( 4 . 3 ) 


Der Score-Wert S ist vor allem in denjenigen Fällen interessant, wo ein hoher P-Wert zwar 
erzeugt wird, dies aber unter der Bedingung der Fall ist, dass auch nur wenige Treffer 
überhaupt erzeugt wurden. Dies kann in Fällen, wo ein Korpus ein Sparse-Data-Problem 
hat, die Ergebnisse entzerren helfen. 


Dabei gilt es ferner folgende Definitionen zu beachten, um die Tabellen im Folgenden 
interpretieren zu können: 

• TP: Anzahl True-Positives 

• FP: Anzahl False-Positives 

• VH: Anzahl Valid-Hits oder gültiger Treffer (von den maximal möglichen Hits PH) 

• PH: Anzahl Possible-Hits oder wieviele Treffer maximal mit einem Selektor hätten 
gültig erzeugt werden können 

• Ph'. Precision gemäss manueller Bewertung des Annota tors H 

• P s : Precision gemäss manueller Bewertung der Annota torin S 

• Phns '■ Precision entsprechend der gemeinsamen TP- und FP-Übereinstimmung der 
Annotationen H und S oder die eigentlich untere Precision-Schranke 

• Sh '. Score gemäss manueller Bewertung des Annotators H auf Basis der bekannten 
eigenen Precision P 'h 

• S s : Score gemäss manueller Bewertung der Annotatorin S auf Basis der bekannten 
eigenen Precision P s 

• Shns- Score entsprechend der gemeinsamen TP- und FP-Übereinstimmung der Anno- 
tationen H und S auf Basis der bekannten Precision Phns oder die eigentlich untere 
Score-Schranke 

• P : Precision im Durchschnitt aller anderen Precision- Werte Ph, P s und Phns, womit 
mögliche Fehlentscheidungen in den Annotationen H und S relativert werden können 

• S: Score im Durchschnitt aller anderen Score-Werte Sh, S s und Shns, womit mögliche 
Fehlentscheidungen in den Annotationen H und S relativiert werden können 
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• PS\ Durchschnittswert der Precision-Werte P und S, der im Idealfall die Gesamtergeb- 
nisse reflektiert und für das Ranking der Tabellen genutzt wird 


4.4.2. 1 Nach Evaluationssystem 

Nach Evaluationssystem gemäss Tabelle 4.6 fallen zwei Ergebnisse deutlich auf: für das 
Oum-Korpus konnten praktisch 130 keine True-Positives gefunden werden. Hingegen ist die 
StartPage-Kollektion ergiebiger: mindestens 20% der vorhandenen und validen Treffer VH 
sind True-Positives. 

Eine erstaunlich hohe untere Schranke für die Precision bietet zudem das Not Evil- 
Korpus, wobei diese allerdings (korrigiert nach dem Verhältnis VH-PH) und ausgedrückt 
in Score-Werten relativiert werden muss. Zwar waren mindestens 23% der Treffer True- 
Positives, doch waren - wegen einem Sparse-Data-Problem - auch weniger Daten vorhanden, 
verdächtigen Inhalt zu finden. 


Evaluationssystem 

P h 

Ps 

PhC\s 

S h 

S a 

Shr\s 

P 

S 

PS 

StartPage 

0.25 

0.21 

0.20 

0.22 

0.19 

0.19 

0.22 

0.20 

0.21 

Not Evil 

0.25 

0.24 

0.23 

0.11 

0.10 

0.10 

0.24 

0.10 

0.17 

DuckDuckGo 

0.24 

0.11 

0.09 

0.14 

0.09 

0.08 

0.15 

0.10 

0.13 

YaCy 

0.16 

0.11 

0.09 

0.10 

0.08 

0.06 

0.12 

0.08 

0.10 

Own 

0.00 

0.00 

0.00 

0.00 

0.00 

0.00 

0.00 

0.00 

0.00 


Table 4.6: True-Positive-Statistik: Precision- und Score-Werte nach Evaluationsdaten 


4.4.2.2 Nach Überwachungsmethode 

Die globale Betrachtung nach den drei genutzten Überwachungsmethoden zeigen gesamthaft 
in Tabelle 4.7 auf, dass die LZM-Modelle im Durchschnitt ihrer konkreten Selektoren am 
besten funktionieren, True-Positives zu generieren. Zu beachten ist aber, dass - rein quali- 
tativ - die Güte einzelner der Selektoren, welche den anderen zwei Modellen zugefallen 
sind, fragwürdig sind. Eine andere Modellierung der Überwachungsmethoden könnte hier 
also andere Ergebnisse erzeugen. 


Evaluationssystem 

P h 

Ps 

Phns 

s h 

S s 

Shns 

P 

S 

PS 

LDA 

0.26 

0.16 

0.15 

0.16 

0.12 

0.11 

0,19 

0.13 

0.16 

TFIDF 

0.15 

0.14 

0.13 

0.10 

0.09 

0.08 

0,14 

0.09 

0.12 

Verdachtssprache 

0.12 

0.11 

0.09 

0.08 

0.07 

0.06 

0,11 

0.07 

0.09 


Table 4.7: True-Positive-Statistik: Precision- und Score-Werte nach Überwachungsmodell 


li0 Es besteht die Ausnahme zweier Treffer seitens der Annotatorin S, wobei diese im Gesamtergebnis (nach 
zwei Kommastellen gerundet) wegfallen. 
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4.4.2.3 Precision im Durchschnitt: Top- 10 

Wird der Fokus wie in Tabelle 4.8 darauf gelegt, nach dem höchsten Durchschnittswert 
der Precision P zu fragen, ist festzustellen, dass nicht ein LDA-Modell zuoberst gerankt 
ist, sondern solche der Verdachtssprache und der TFIDF -Überwachungsmethodik: dies 
allerdings bezogen auf das Not Evil- Korpus, das bekanntlich ein Sparse-Data-Problem 
haben könnte. 


p 

Überwachungsmodell 

Evaluationssystem 

0.70 

Extrem-Intensivierer (Verdachtssprache) 

Not Evil 

0.63 

Wort-2-Gramme (TFIDF) 

Not Evil 

0.59 

LDA-IO(LDA) 

StartPage 

0.58 

LDA-8 (LDA) 

StartPage 

0.43 

Hoch-Intensivierer (Verdachtssprache) 

Not Evil 

0.41 

Wort-Kombinationen (TFIDF) 

Not Evil 

0.39 

LDA-5 (LDA) 

StartPage 

0.37 

LDA-5 (LDA) 

DuckDuckGo 

0.36 

Wort-2-Gramme (TFIDF) 

YaCy 

0.35 

LDA-2 (LDA) 

YaCy 


Table 4.8: Precision im Durchschnitt: Top-10 


4.4.2.4 Score im Durchschnitt: Top-10 

Die besten Scores im Durchschnitt ( S ), die über alle 70 verschiedenen Varianten von 
Überwachungsmethode, entsprechender Modellierung und Evaluationskorpus vorhanden 
sind, machen solche aus, die mit dem StartPage-Evaluationskorpus im Zusammenhang 
stehen: bei diesem kann damit gerechnet werden, dass Milliarden von Dokumenten 
vorhanden sind. Entsprechend beeindruckt auch, dass jene Modellierungen der LDA- 
Überwachungsmethode die besten Ergebnisse erzeugen, die mit mehr - thematisch zusam- 
menhängenden - Worten auskommen. In den ersten vier Plätzen beünden sich die drei LDA- 
Modellierungen, die mit fünf, acht und zehn Worten auskommen. Die Wort-Kombinationen 
nach TFIDF -Überwachungsmethodik, die den dritten Platz einnehmen, “profitieren” ver- 
mutlich von einer günstigen Wortwahl im Sparse-Data-Korpus von Not Evil. 
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s 

Überwachungsmodell 

Evaluationssystem 

0.47 

LDA- 10 (LDA) 

StartPage 

0.46 

LDA-8 (LDA) 

StartPage 

0.37 

Wort-Kombinationen (TFIDF) 

Not Evil 

0.33 

LDA-5 (LDA) 

StartPage 

0.28 

LDA-2 (LDA) 

StartPage 

0.26 

LDA-3 (LDA) 

DuckDuckGo 

0.25 

LDA-2 (LDA) 

YaCy 

0.25 

LDA-3 (LDA) 

StartPage 

0.25 

Skandalisierer (Verdachtssprache) 

StartPage 

0.24 

LDA-2 (LDA) 

DuckDuckGo 


Table 4.9: Score im Durchschnitt: Top-10 


4.4.2.5 Precision+Score im Durchschnitt: Top-10 

In Tabelle 4.10 werden die Ergebnisse nach dem PP-Mass betrachtet, was dem Durch- 
schnitt aller Einzelmasse entspricht. Diese “globale” Sicht bietet einen interessanten 
Abschluss, denn werden die ersten fünf Ranking-Ergebnisse begutachtet, fällt auf, dass alle 
Überwachungsmethoden LDA, Verdachtssprache und TFIDF vertreten sind, wobei - wie 
zu erwarten - die thematischen LDA-Modelle am besten abschneiden. Bei den anderen 
Modellen bleibt die Frage offen, ob diese in ihrer ausgewiesenen Güte nicht zufällig davon 
“profitieren”, sich am Not Evil - Korpus behaupten zu können, das einige Besonderheiten 
hinsichtlich der indexierten Webseiten, doch auch seines Umfangs aufweist. Denn: im 
weiteren Ranking ist nur noch einmal ein Nicht-LZM-Modell an 9. Stelle vorhanden, das 
aber wiederum auf Basis des Not Evil - Korpus “besteht”. 


TS 

Überwachungsmodell 

Evaluationssystem 

0.53 

LDA- 10 (LDA) 

StartPage 

0.52 

LDA-8 (LDA) 

StartPage 

0.42 

Extrem-Intensivierer (Verdachtssprache) 

Not Evil 

0.39 

Wort-Kombinationen (TFIDF) 

Not Evil 

0.36 

Wort-2-Gramme (TFIDF) 

Not Evil 

0.36 

LDA-5 (LDA) 

StartPage 

0.30 

LDA-2 (LDA) 

StartPage 

0.29 

LDA-5 (LDA) 

DuckDuckGo 

0.29 

Hoch-Intensivierer (Verdachtssprache) 

Not Evil 

0.29 

LDA-2 (LDA) 

StartPage 


Table 4.10: Precision+Score im Durchschnitt: Top-10 
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Jeder chinesische Bürger soll laut aktuellen Berichten ein Punktekonto (“Citizen 
Score”) bekommen, das darüber entscheiden soll, zu welchen Konditionen er einen 
Kredit bekommt und ob er einen bestimmten Beruf ausüben oder nach Europa 
reisen darf. In diese Gesinnungsüberwachung ginge zudem das Surfverhalten des 
Einzelnen im Internet ein - und das der sozialen Kontakte, die man unterhält. 

[...] 

[Es] [...] wird immer deutlicher, dass wir alle [auch im Westen] im Fokus insti- 
tutioneller Überwachung stehen, wie etwa das 2015 bekannt gewordene “Karma 
Police” -Programm des britischen Geheimdienstes zur flächendeckenden Durch- 
leuchtung von Internetnutzern demonstriert. 

- Dirk Helbling et al. im “Das Digital Manifest” vom 12. November 2015 [39] 


5.1 Diskussion des Versuchs und der Ergebnisse 

5.1.1 Zur Güte der Evaluationsergebnisse 

Die 140 Selektoren, die im Anhang unter A.1 aufgeführt sind, weisen weder quantitativ 
noch qualitativ denselben Charakter auf. 

Wie die quantitativen Ergebnisse aus dem Kapitel 4 vermuten lassen, schneiden oft Se- 
lektoren aus den LDA-Modellen am besten ab, was heisst, dass sie verhältnismässig am 
meisten True-Positives generieren: das soll aber nicht darüber hinwegtäuschen, dass es 
nicht strukturell, sondern nur in Einzelfällen gelingt, die eingangs aufgeworfenen Hypothe- 
sen zu falsifizieren. Precision-Werte über 0.5 sind zwar vorhanden, allerdings nur für eine 
Handvoll der über 70 Möglichkeiten, die das Überwachungssetting bietet. Strukturell liegt 
die Rate der False-Positives bei über 50%, womit die Hypothesen halten. Insbesondere wird 
auch die dritte Hypothese dadurch erfüllt, dass es insbesondere unter Einsatz von spezi- 
fisch aufgebauten Selektoren, die wie bei den LDA-Modellen bis zu zehn Worte umfassen 
können, gelingt, bessere Ergebnisse zu erzielen - dies im Kontrast zu Selektoren, die nur 
aus einzelnen oder nur allgemeinsprachlichen, unspezifischen Worten zusammengesetzt 
sind. 
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Allerdings haben die verschiedenen Selektoren auch unterschiedliche Tendenzen und Güten 
in ihrer eigenen, qualitativen Natur: so scheint es mit den TE/DE-Modellen, die in den 
Gesamtergebnissen selten gut abschneiden, verschiedentlich zu gelingen, Named Entities 
zu erzeugen, wie folgende zwei Selektoren aus dem Aufbau-Korpus zeigen: 131 

• ibrahim abdallah: Diese eigentliche Named Entity (NE) nimmt Bezug auf Georges 
Ibrahim Abdallah, ein marxistisch gesinnter Aktivist, der für die Koordination diverser 
tödlicher Anschläge verurteilt wurde und bis heute in Frankreich (widerrechtlich) 
gefangen gehalten wird. [23] 

• marco camenisch: Als NE referenziert dieser Ausdruck den bekannten Schweizer 
grün-anarchistischen Aktivisten, den die Basler Zeitung als “Ikone der Zürcher Link- 
sextremisten” bezeichnet und dem die Haftenetlassung (wiederholt) erschwert wurde. 
[109, 123] 

5.1.2 Willkürpotenzial in der Auswahl des Trainingsmaterials 

Es muss kritisch betont werden, dass die konkrete Ausgestaltung der inhaltlichen Suchbe- 
griffe, die als Selektoren generiert werden, im höchsten Masse von der Aufbereitungsqual- 
ität und Auswahl des Trainingsmaterials abhängt. 

Will die politische Führung beispielsweise gewisse Gruppen auf Grund soziolinguistischer 
Merkmale wie Sprachgemeinschaft, -verhalten oder -Schicht von der Massenüberwachung 
“verschonen”, so kann sie das zu steuern versuchen, indem gewisse Daten aus dem Train- 
ingskorpus gelöscht werden: damit wird zumindest verhindert, dass sich ein potenziell 
spezifischer Sprachgebrauch als Selektor manifestieren kann. [62, S.350ff.] 

Zudem ist zu beachten, dass einige der konkreten Selektoren plausibel darauf hindeuten, 
dass personen-, gruppen-, orts- und aktualitätsspezifische Merkmale darin kodiert sind: 
so fallen in den Selektoren unter A.l gelegentlich Begriffe wie schweizer, rütli, pnos, 
flüchtlingsflut und obama. 


5.1.3 Willkürpotenzial in der Generierung der Selektoren 

Im Rahmen dieser Arbeit wurden Überwachungsmethoden aus den Bereichen Information 
Retrieval, Korpuslinguistik und Topic Analysis ausgewählt, um Selektoren zu generieren. 

Es können einerseits andere Methoden der automatischen Generierung von Selektoren 
eingesetzt werden, andererseits aber auch die bestehenden Modelle verändert werden - 
alles dies resultiert in anderen Selektoren, die ganz andere True-Positives und auch False- 

131 Parallel dazu werden auch im PN OS -Korpus und innerhalb des TF/DF-Überwachungsmethode Named 
Entities generiert 
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Positives erzeugen mögen. 

In keinem Fall aber kann es gelingen, im Sinne eines “sprachlichen Fingerabdrucks” die 
perfekten Selektoren zu finden, welche nur True-Positives erzeugen. Denn (1) wird dies Men- 
schen und auch Gruppen nicht gerecht, die sich weiterentwickeln und ihren Sprachgebrauch 
verändern; (2) kann kein Selektor dynamische Faktoren - wie zukünftige Tagesaktualitäten 
- in sich ohne Weiteres enthalten und (3) wurde im Rahmen der Selektorgenerierung in 
Kapitel 3 aufgezeigt, dass aus jedem Modell tausende von Selektoren möglich gewesen 
wären, um (Teile) der repräsentierten Textkollektion abzubilden. Es ist also ohnehin eine 
gewisse “Unschärfe” nötig, um andere gleiche oder ähnliche Dokumente in Datenströmen 
zu finden, die den festgelegten Suchkrtierien eines Auftrags der Massenüberwachung 
entsprechen: dies aber führt unweigerlich zu grossen Mengen von False-Positives. [104] 


5.1.4 Offener Spielraum bei der Interpretation der Treffer 

Bei den erfolgten Treffern - selbst wenn sich darunter True-Positives befinden - kann 
(grosse) Uneinigkeit darüber bestehen, ob diese der definierten Suchkategorie entsprechen: 
im Rahmen der Evaluation von Kapitel 4 ist zu Tage getreten, dass für Treffer des “Linksex- 
tremismus” zwischen den Annotatoren susbstanzielle Einigkeit darüber bestand, dass die 
Treffer der Suchkategorie entsprechen: nicht so aber für den Bereich des “Rechtsextremis- 
mus”, wo der Kappa-Koeffizient mit 0.5 132 bedeutend tiefer ausgefallen ist. 

Wird in Betracht gezogen, dass es noch diffusere Suchkategorien - wie etwa “Terroris- 
mus” - gibt, die mithin stark ideologisch und - bei Kriegsparteien - standpunktspezifisch 
sein können, ist auch auf den “Faktor Mensch” zuletzt kein Verlass, dass keine Perso- 
nen als Folge von Massenüberwachung Opfer weitergehender, invasiverer Formen der 
Überwachung werden, die ihr Leben (stark) negativ beeinflussen können. 


5. 1 .5 Verhältnismässigkeit und Massenüberwachung 

Der Umstand, dass Massenüberwachung eine ungezielte Form der Überwachung darstellt 
und auf den Grundsatz des Generalverdachts beruht, hat zur Folge, dass in realen Situatio- 
nen Millionen Menschen verdächtigt werden und viele davon fälschlich ins Raster geraten, 
verdächtig zu sein. [6, 10] 

Es sei entsprechend den Ergebnissen von Kapitel 4 darauf aufmerksam gemacht, dass die 
meisten Treffer harmlos sind: zu oft sind Newsseiten oder Wikimedia-Plattformen betroffen, 
womit beispielsweise journalistische Recherchearbeiten Verdacht schöpfen können. 

Im Rahmen des Vorhabens Mastering The Internet des britischen Geheimdienstes GCHQ 
132 Gegenüber 0.8 für die Übereinstimmung beim “Linksextremismus” 
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fällt auf, dass insbesondere Termini wie “nationale Sicherheit” und “Wirtschaftsinteressen” 
sehr schwammig bis nicht definiert sind und entsprechend je nach Regierung und Tage- 
sordnung anders ausgelegt werden können: daraus schöpft sich ihre Gefahr, die in massiv 
ausufernder Überwachung resultieren kann. [64] 

Die jüngsten Anschläge von Paris haben - in teilweise paralleler Tonalität (von Vergel- 
tung und Kriegsrhetorik) wie nach den Anschlägen von 9/11 - zu Forderungen nach mehr 
Überwachung geführt. Es gibt allerdings nach wie vor keinen plausiblen Hinweis darauf, 
dass ungerichtete Formen der Überwachung, die grundsätzlich darauf abzielt, alle zu 
verdächtigen - wie dies von der NSA und artverwandten Diensten betrieben wird - einen 
Terroranschlag im Sinne führen zu können, bislang zur Verhinderung derselben führen 
konnte. Dies bestätigen US-Geheimdienste in eigenen (internen) Papieren bisweilen selber. 
[41, 42] 

Zudem wurde bei der höchstgerichtlichen Ausserkraftsetzung des sogenannten Safe-Harbor- 
Abkommens zur Datenübermittlung von Daten der EU 133 an die USA festgestellt, dass die 
durch die Snowden-Enthüllungen offengelegte Praxis der US-Massenüberwachung den “[...] 
Wesensgehalt des [...] garantierten Grundrechts auf Achtung des Privatlebens [verletzt]” und 
damit Grund darstellt, unwillentliche Datenübermittlungen in die USA zu stoppen. [108] 


5.2 Strategien im Umgang mit der Massenüberwachung 

Es ist einerseits theoretisch immer möglich, andererseits praktisch in Einzelfällen beobacht- 
bar, Sprach- oder Verschlüsselungstechnologie einzusetzen, um die eigene Identität oder 
die Inhalte zu schützen. In Ländern, wo freiheitliche und für demokratische Prozesse 
erforderliche Güter wie Meinungsäusserungs- oder Versammlungsfreiheit nicht gewahrt 
sind und mit Repression seitens staatlicher Behörden gerechnet werden muss, können 
solche Werkzeuge direkt für das Überleben notwendig sein. 

Zur Autorenidentiükation ist zudem eine Abgrenzung vorzunehmen, weil die Massenüber- 
wachung nicht primär darauf abzielt, nach einer bestimmten Person zu suchen, sondern 
nach verdächtigen Personen(-Kreisen) generell beziehungsweise überhaupt interessieren- 
dem Material - anfänglich unabhängig der Autorenschaft. 


133 Die Schweiz hat ein eigenes, doch wesensgleiches Abkommen mit den USA abgeschlossen, das allerdings 
(noch) nicht ausser Kraft gesetzt wurde, wie der Bundesrat auf eine parlamentarische Anfrage antwortet. 
Vgl. Geschäftsdatenbank Curia Vista (2015). 15.4001 - Interpelation. US-Swiss Safe Harbor Framework. 
Die Personendaten wirklich schützen. URL http: / /www . pariament . ch/d/suche/seiten/geschaef 
te . aspx?gesch_id=20154001. Abruf: 20. November 2015. 
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5.2.1 Chilling Effects: Freiheit durch Anpassung? 

Es existieren Studien [113], die vor und nach den Snowden-Enthüllunge nahelegen, dass 
sich Personen anders verhalten - mithin: selbst zensieren - wenn sie sich der ständigen 
Überwachung und der möglichen (sozialen) Sanktionsmöglichkeiten gewahr sind. Solche 
Effekte werden Chilling Effects genannt. 

Chilling Effects der Massenüberwachung, die demnach als Folge der Snowden-Enthüllungen 
gemessen wurden, sind: 

• Gemäss einer norwegischen Studie werden Websuchen in beschränkterem Umfang 
ausgeführt. 

• In einer US-Studie wird nahegelegt, dass Personen aktiv versuchen, digitale Spuren 
zu verwischen oder Anonymisierungssoftware wie Tor zu verwenden. 

• Hotline-Anrufe nehmen in der Post-Snowden-Zeit gemäss Erhebungen unterschiedlicher 
Verbände in den USA ab. 

• US-Schriftsteller zensieren sich in bestimmten Themen selber: sowohl was ihre 
mündliche als auch schriftliche Äusserung betrifft. 

• Eine US-Studie legt nahe, dass die Pressefreiheit abnehme, weil Informanten vor- 
sichtiger seien. 

Doch schon vor den Snowden-Enthüllungen legt dieselbe Quelle [113] Effekte offen, die 
sich bereits nach den 9/11-Anschlägen geäussert haben sollen; es handelt sich dabei um 
US-Studien: 

• Minderheiten muslimischer Abstammung fühlen sich im Internet überwacht, ins- 
besondere seit den 9/11-Anschlägen. 

• Arbeitnehmende fühlen sich gestresst, wenn sie wissen, dass sie am Arbeitsplatz 
überwacht werden. 

• Im sozialpsychologischen Experiment “Asch” wird darauf hingewiesen, dass unter 
Konformitätsbedingungen offensichtlich falsche Aussagen als richtig akzeptiert wer- 
den. 

Soziolinguistisch betrachet stellen sich ebenfalls Fragen darüber, wie sich Menschen 
überhaupt sprachlich ausdrücken können und sollen, um der - unbekannten - Norm zu 
entsprechen, die verhindert, dass das “Raster” der Massenüberwachuchung greift. Anders 
als in Alltagssituationen, wo Regelverletzungen - entsprechend den geltenden sprach- 
lichen Erwartungshaltungen - in Gesprächssituationen gegebenenfalls zu Gefühlen der 
Peinlichkeit führen können, kann eine Markeriung als “Terrorgefahr” im Rahmen einer 
Massenüberwachung ernsthafte Konsequenzen für den eigenen Lebensverlauf haben. [62, 
S.351ff.] 
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5.2.2 Anonymisierung und Obfuskation der Urheberschaft 

Es existiert Software wie Anonymouth 134 [9, 106], die es erlaubt Texte zu anonymisieren 
oder doch zumindest wesentlich zu entstellen, indem stilistische Eigenschaften, andere 
und kürzere Wörter (mit geringeren globalen Auftretenshäufigkeiten) auf Basis textuellen 
Materials anderer Autoren übernommen werden. Dafür wird der eigene Text durch Train- 
ingskorpora anderer Autoren obfuskiert, so dass Messmethoden forensischer Linguistik 
ungenauer werden. 

Konkrete Praxis (autoren-)anonymisierender Kommunikation für den Voice-Bereich ündet 
beim Hackerkollektiv Anonymous [54] statt: schon bei der ersten öffentlichen Anonymous- 
Aktion, der Operation Chanology, die sich gegen die Scientology - Sekte gerichtet hat, wurde 
zu Sprachtechnologie des Text-To-Speech gegriffen, um die Identifikation der Aktivisten 
anhand Verfahren der Stimmidentifikation zu erschweren. 135 

5.2.3 Anonymisierung und Verschlüsselung der Daten(-Wege) 

Es sind der Massenüberwachung Grenzen setzbar: diese hängen mit dem Umstand zusam- 
men, dass mit Einsatz bestimmter Soft- und Hardware, dem Überwachungskomplex (unter 
steigenden Kosten) erschwert wird, jeden Akteur beliebig zu überwachen. [12, 44, 129] 

Andererseits kann der Einsatz von Verschlüsselungsverfahren für Geheimdienste Ver- 
dachtsmoment sein, im Sinne “konspirativen Verhaltens”. Eine solche Argumentation bietet 
sich je mehr an, desto weniger Akteure verschlüsseln. 

Gerade begünstigt durch die Snowden-Enthüllungen haben diverse Projekte die Initia- 
tive ergriffen, für mehr verschlüsselten Trafhc zu sorgen. Ein spannendes Beispiel eines 
Projektes, das den Standard textbasierter Kommunikation auf anonymisierend und ver- 
schlüsselt abändern möchte, ist pretty Easy privacy oder p=p. 136 Unter Einsatz einer Core- 
Engine, die mehrere anerkannte Verschlüsselungsverfahren bedient 137 , indem anerkannte 
Crypto-Bibliotheken eingesetzt und Adaptoren für verschiedene Programmiersprachen zur 
Verfügung gestellt werden, wird eine plattformübergreifende Lösung geschaffen, die es 
ermöglicht auf diversen Kanälen und untereinander Nachrichten automatisch zu verschlüs- 


134 Vgl. Quellcode autgithub.com: https://github.com/psal/anonymouth. Abruf: 12. November 2015. 

135 Noch immer aber könnte auf Grund der Textstruktur, welche dem TTS-System als Eingabe dient, möglicher- 
weise auf die Autorenschaft geschlossen werden, falls diese nicht wie unter Kapitel 5.2.2 erläutert beispiel- 
sweise mit Anonymouth im Ursprung anonymisiert wird. 

136 Disclaimer: Ich arbeite selber in diesem Projekt verschiedentlich mit. 

137 Gemeint ist, dass Schritte, die üblicherweise End-User ausführen, um Schlüsselmaterial für eine vertrauliche 
Kommunikation zu erstellen (Keymanagement) und weitere Schritte, die ihn dazu befähigen, mit anderen 
End-Usern zuletzt verschlüsselt zu kommunizieren, in einer standardisierten Art und Weise automatisiert 
werden, dass diese folglich als Protokoll verschlüsselter Textkommunikation institutionalisiert werden 
können. 
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sein. Der Ansatz ist letztlich, die gesamte Textkommunikation zunehmend ins Darknet 138 
zu verlagern, wo Akteure peer-to-peer miteinander kommunizieren, ohne zentrale dienst- 
spezifische Vermittlungsstelle: durch die zusätzliche Verschlüsselung mit Verfahren wie 
OTR würden schliesslich bei den Geheimdiensten nicht nur punkto Inhaltsdaten, sondern 
auch Metadaten die Lichter ausgehen. 

Zu beachten ist, dass selbst Verfahren der Ende-zu-Ende-Verschlüsselung nur in Fällen 
schützend wirken, wo der Datenzugriff zwischen den Akteuren erfolgt: kann gemäss den 
Ausführungen von 2.1.2 ein Endgerät kontrolliert und die Daten auf eine Überwachungsplat- 
tform ausgeleitet werden, ist zumindest eine Inhaltsüberwachung wieder sofort möglich. 

Weiterhin bestehen für andere Formen der Kommunikation und Netznutzung Angriff- 
smethoden auf verschlüsselte Dienste wie VPN, SSH oder Tor, die im Allgemeinen als 
sicher gelten und doch unter gewissen (unwahrscheinlichen) Randbedingungen von der 
NSA und ihren Verbündeten umgangen werden können. [111] 


5.3 Fazit 

Die Ergebnisse zeigen auf, dass einige der Modelle besser als andere funktionieren, ver- 
dächtiges Material auf Basis einfacher Trainingskorpora in Textkollektionen zu finden: dies 
wenn (1) die Suchbegriffe spezifisch genug und (2) das Evaluationsmaterial in genügendem 
Umfang ausfällt, Treffer zu produzieren. 

Sind die Suchbegriffe wenig speziüsch auf das Verdachtsmaterial ausgelegt, ist der Anteil 
von False-Positives naturgemäss höher, was folglich bedeutet, dass bei solchen Formen der 
Datenauswertung die Überwachung eine erhöhte Anzahl Menschen in den Verdacht rückt, 
einer bestimmten Gruppe anzugehören oder doch zumindest damit verbundene Aktivitäten 
beziehungsweise entsprechende Interessen zu hegen. 

Gehen wir davon aus, dass heutige Geheimdienste Zugriff auf nahezu alle Formen un- 
verschlüsselter Kommunikation haben und in vielen Fällen zusätzlich fähig sind, verschlüs- 
selte Formen der Kommunikation zu umgehen, so kann von keinem Sparse-Data-Problem 
ausgegangen werden. 

Es gelingt folglich mit sehr hoher Wahrscheinlichkeit Treffer zu produzieren, die ins “Raster” 
passen und somit Verdächtige zu generieren: sei es, weil solche bestimmte Webseiten ansur- 
fen oder in ihrer Kommunikation die nötigen Begriffskombinationen führen. Genauso kann 
ins Raster fallen, wer “zufälligerweise” dieselben Suchbegriffe in Suchmaschinen eintippt, 

138 Angedacht ist GNUnet, ein offen spezifiziertes peer-to-peer-System, das anonymisierte und dezentralisierte 
Kommunikation zwischen diversen Knotenpunkten in einem Netzwerk erlaubt. 

Vgl. Webseite GNUnet (2015). GNU’s Framework for Secure Peer-to-Peer Network. 

URL https : / / gnunet . org/. Abruf: 13. November 2015. 
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welche als Selektoren selber bestimmt sind, nach Sprache zu suchen, die von der Norm 
abweicht. 

Wo ein erhebliches Willkürpotenzial besteht, ist in der Interpretation der Treffer gegeben, 
die anfallen. Fragen, die nicht ohne Weiteres von einem automatisch operierenden Über- 
wachungssystem beantwortet werden können, sondern viel eher psychologische, soziologis- 
che, informationstechnische oder gar zufälligen Hintergrund haben können, sind beispiel- 
sweise - ohne abschliessend zu sein - Fragen der folgenden Art: 

• Wieso hat jemand eine bestimmte Webseite aufgerufen? 

• Ist die Person, von deren Anschluss oder Webbrowser-Kennung aus die Webseite 
aufgerufen wurde, auch dieselbe, die die Webseite aufgerufen hat? 139 

• Ist die Person wirklich eine verdächtige Person oder recherchiert sie bloss für einen 
Artikel oder eine Forschungsarbeit? 

Diese Fragen auch nur ansatzweise zu beantworten, erfordert einerseits eine umfassende 
Form der Überwachung jedweder Aktivitäten einer konkreten Person und hat anderer- 
seits das Potenzial, es erforderlich zu machen, auch das gesamte Umfeld einer Person 
mit zu überwachen, um beispielsweise harmlose Forschungs- oder Studierendengruppen 
(etwa an Universitäten), Journalisten oder etwa (strafrechtliche) Ermittler als Verdächtige 
auszuschliessen, die sich beispielsweise mit “politischen Randgruppen” beschäftigen. Diese 
Praxis birgt die Gefahr, ausufernden Charakter anzunehmen, in einer Form, dass die 
Überwachung letztlich nicht nur oberflächlich, sondern auch invasiv auf diverse Bevölker- 
ungskreise ausgedehnt wird. Exemplarisch hierfür kann der Fall von Andrej Holm gemäss 
Abschnitt 2. 1.3.2 stehen, der mithin im benachbarten Deutschland in Isolationshaft kam: 
eines der wichtigen Anfangsverdachtsmomente stellte eine behördliche Goog/e-Suche dar, 
die Treffer mit seinen Texten zu Tage förderte. 

Zusätzlich fällt rasch auf, dass eine zweite Dimension der Willkür dem System der Gener- 
ierung entsprechender Selektoren direkt inhärent ist. Je nach eingesetztem Trainingsmate- 
rial resultierten (leicht) andere Selektoren. Das heisst gleichzeitig, dass je nach Umfang 
und Vorverarbeitung des Trainingsmaterials andere Selektoren erzeugt werden, die zu 
anderen Treffern und entsprechend anderen Verdächtigen führen können. 

Zudem liegt die Missbrauchsgefahr solcher Systeme auf der Hand: ein System, das mit 
Selektoren für “politischen Extremismus” trainiert wurde, kann durch Einsatz anderen 
Textmaterials und gegebenfalls leicht differierender Logik zur Selektorgenerierung für 
diplomatische Ausspähung oder Wirtschaftsspionage eingesetzt werden, wie dies ganz 
offensichtlich gemäss Snowden-Enthüllungen von Seiten der USA oder - gemäss laufender 
parlamentarischer Untersuchungen - seitens Deutschland en vogue ist. 

139 Schadsoftware oder (unwissentlich) laufende Crawler-Software, wie solche die bei YaCy im Einsatz ist, können 
für Webseitenabrufe sorgen. 
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Das Grundproblem zuletzt bleibt, dass wer mit Suchbegriffen nach der Nadel im Heuhaufen 
sucht, immer False-Positives fördert. Auf der anderen Seite sind auch False-Negatives 
vorhanden, wenn sich Akteure verschlüsselnder oder anonymisierender Technik bedienen, 
oder die eingesetzen Selektoren auf (grund-)falschen Annahmen beruhen: sie also irrele- 
vante Treffer erzeugen. 

Allen Personen mit technischem Verständnis wird bewusst sein, dass ohne besondere 
Vorkehrungen zu treffen, die elektronische Kommunikation nachweislich der vollständigen 
Überwachung untersteht. Zu keinem Zeitpunkt kann allgemein den Menschen hingegen 
bewusst sein, dass konkret ihre Daten für eine spätere Verarbeitung oder genauere Analyse 
aussortiert werden. Das mangelnde Wissen um die Funktionsweise dieser Systeme, die 
im Einsatz befindlichen konkreten Selektoren 140 und daraus resultierende Treffer wer- 
fen Fragen auf, ob solche Formen der Überwachung in Rechtsstaaten mit demokratischer 
Verfassung und Bekenntnis zu Menschenrechten tragbar sind: dies umso mehr, wird zur 
Kenntnis genommen, dass die meisten Staatsvölker oder gar “die” globale Gesellschaft nie 
über ein solches Ausmass der Überwachung - informiert - abgestimmt und solcher Praxis 
zumindest den Hauch einer Legitimität zugesprochen haben. 

Doch statt die nötig dringende Diskussion über die laufende Praxis zu führen, werden 
Überwachungsgesetze sowohl hierzulande als auch im benachbarten Ausland (etwa in 
Deutschland oder Frankreich) ausgebaut, offenbar im Aufrüstungseifer den “Vorbildern” 
des Überwachungskomplexes der FVEY nahe zu kommen und genauso erhebliche Kapaz- 
itäten zur Überwachung lokalen wie globalen Datenverkehrs aufzubauen. 

Am Ende angekommen, bleibt die Hoffnung, dass mit dieser Arbeit ein wertvoller Anstoss 
zur Aufklärung und Diskussion der gegenwärtig und zukünftig (weiter) möglichen lokalen 
wie globalen Massenüberwachung gegeben ist. 


140 Oder nur schon ihre (Entstehungs-)Natur oder die Gesamtheit ihrer Kategorien. 
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An dieser Stelle sind einige wichtige Begriffe aufgeführt, die in der Arbeit häufig Vorkommen. 

Ein umfassenderes Glossar im Zusammenhang mit den Snowden-Enthüllungen findet sich 

bei BBC. [45] 

Inhaltsdaten Inhaltsdaten der Kommunikation sind grundsätzlich der “Payload” oder 
die Kernbotschaft, die bei Kommunikationsdaten bestehen: das können statt nur 
Webseiten-URLs oder Zeiten des Abrufs, der konkrete Inhalt der Seite sein, statt nur 
der Dateiname einer Datei. Bei der Massenüberwachung nach Inhaltsdaten müssen 
grundsätzlich alle Daten durchsucht werden: auch diejenigen, die dem Metadaten- 
Bereich zufallen. 

Massenüberwachung Als Überwachungsparadigma zeichnet sich Massenüberwachung 
dadurch aus, dass anstatt zielgerichtet konkrete Verdächtige zu überwachen, alle dem 
Generalverdacht unterstellt werden, verdächtigs Verhalten aufzuweisen. Merkmale 
von Massenüberwachung sind, dass sie anlasslos (ständig) erfolgt und verdachtsunab- 
hängig alle betrifft. 

Metadaten Metadaten sind technische Kommunikationsmerkmale der Kommunikation 
wie E-Mail-, IP-Adressen, aber auch Chat-Nicknames und in E-Mails Betreffszeilen. 
Die Auswertung von Metadaten alleine können bereits ein umfassendes Bild der Kon- 
taktnetzwerke und Interessen (beispielsweise beim Websurfen) einer Person liefern. 

Onyx Ein Schweizer System zur Massenüberwachung von Funkverbindungen, das vom 
Zentrum für Elektronische Operationen ZEO betrieben wird. Auftraggeber sind 
Militär und der Schweizer Geheimdienst NDB. 

PRISM Ein Programm von FBI und NSA, das dazu genutzt wird, Daten von Online- 
Providern wie unter anderem Apple, Google oder Facebook auszuleiten und beispiel- 
sweise von XKeyscore durchsuchbar zu machen. 

Selektor Ein Suchbegriff, der sowohl formaler oder technischer, als auch inhaltlicher Art 
sein kann. Erstere sind “Strong-”, zweitere “Soft”-Selektoren. Formale Selektoren sind 
Selektoren, welche technische Kommunikationsmerkmale wie E-Mail-, IP-Adressen 
oder Telefon-Nummern betreffen. Grenzfälle sind gegeben, wenn Named Entities 
wie Personnamen oder Organizationsbezeichnungen als Seleltkoren im Einsatz sind. 
Diese können sowohl darauf aus sein, Metadaten in Datenströmen als auch eigentliche 
Inhaltsdaten zu finden. 


75 


Kapitel 5. Schlussbetrachtungen 


Tempora Ein Programm vom britischen Geheimdienst GCHQ, das Daten aus Unterseeka- 
beln ausleitet und sie zum Beispiel mittels der NSA-Suchmaschine XKeyscore durch- 
suchbar macht. 

XKeyscore Eine NSA-Suchmaschine, die es erlaubt, in privaten Datenströmen, mit beliebi- 
gen Selektoren oder auch komplexeren (verzweigten) “Ausdrücken” zu suchen. Es 
können beispielsweise fingerprints in C++ geschrieben werden, die es ermöglichen, 
die Datenströme nur von gewissen Geräten - beispielsweise Apple iPhones - zu 
durchsuchen oder Treffer von Systemen weltweit anzuzeigen, die bestimmte Sicher- 
heitslücken haben. 
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A Tabellen 


A.l Selektoren nach Modell 

A.l.l TFIDF 


Aufbau 

PN OS 

aktion 

2006 

andi 

pnos 

trauen 

rütli 

prozess 

schweizer 

wef 

sempach 


Table A.l: Selektoren TFIDF-Modell: Einzel Worte 


Aufbau 

PNOS 

aktion flughafen 

jonas gysin 

antirassistische aktion 

kanton bern 

flughafen 20 

kanton waadt 

ibrahim abdallah 

pnos ch 

marco camenisch 

tobias hirschi 


Table A.2: Selektoren TFIDF-Modell: Wort-2-Gramme 


Aufbau 

PNOS 

8 rmärz 

abdallah ibrahim 
aktion flughafen 
camenisch marco 
georges ibrahim 

1 august 
8 märz 

ausgaben rotem 
heinz kaiser 
hirschi tobias 


Table A.3: Selektoren TFIDF-Modell: 2-5-Wortkombinationen 
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A.1.2 Verdachtssprache 


Aufbau 

PNOS 

eingestellter längst verfahren 
eingestellter längst wiederaufgreifen 
kampf mehrfach stark 
kriminalisiert mehrfach stark 
kriminalisiert repression stark 

meinungsfreiheit punkten stark 
möglichst nahe rechtsnorm 
möglichst nahe wortsinn 
möglichst rechtsnorm sinn 
sicht spürbar wachstumswahns 


Table A.4: Selektoren Verdachtssprache-Modell: intensivierend (generell) 


Aufbau 

PNOS 

fluchthilfe leisten praktisch 

aktionen positive sicherlich 

fluchthilfe leisten praktisch unterstützen 

mal öfters rein schauen 

fluchthilfe praktisch unterstützen 

mal rein schauen 

frau nase voll 

nationalen Probleme rein 

leisten praktisch unterstützen 

öfters rein schauen 


Table A.5: Selektoren Verdachtssprache-Modell: intensiverend (absolut) 


Aufbau 

PNOS 

angegriffen kriminalisiert repression stark 
angegriffen kriminalisiert stark 
angegriffen mehrfach stark 
angegriffen repression stark 
kampf mehrfach stark 

allzu mehrheitsmeinung stark 
allzu stark systemeliten 
anwendung rechtsnormen stark 
rechts sichtbar überprüfbar 
sicht spürbar wachstumswahns 


Table A.6: Selektoren Verdachtssprache-Modell: intensivierend (hoch) 


Aufbau 

PNOS 

derweil kampagnen möglichst 

flüchtlingsaufnahme kampagnen möglichst unattraktiv 
flüchtlingsaufnahme möglichst unattraktiv 
kampagnen möglichst unattraktiv 
kampagnen möglichst versuchen 

einheit kulturelle weitestgehend 
einheit völkische weitestgehend 
extrem lebenslange Verwahrung 
festzusetzen möglichst nahe wortsinn 
festzusetzen möglichst wortsinn 


Table A.7: Selektoren Verdachtssprache-Modell: intensivierend (extrem hoch) 
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Aufbau 

PNOS 

aktionen militante vorwand 
angeklagten dienen eigentlich 
angeklagten dienen eigentlich entlastung 
angeklagten eigentlich entlastung 
spiess tatsächlich umzudrehen 

eigentlich unnütz vertrage 
führen gegner lügen 
führen gegner lügen wahlkampf 
führen lügen wahlkampf 
gegner lügen wahlkampf 


Table A.8: Selektoren Verdachtssprache-Modell: Verschwörungsvokabular 


Aufbau 

PNOS 

angegriffen grausam unzählige 
angegriffen grausam unzählige zivilisfinnen 
angegriffen grausam Zivilistinnen 
grausam niedermetzelten Zivilistinnen 
grausam unzählige Zivilistinnen 

261 nutzlos Volkes 
argumentation art inakzeptabel 
argumentation inakzeptabel juristen 
hand nehmen verfahren 
unsolidarisch verhält weit 


Table A.9: Selektoren Verdachtssprache-Modell: skandalisierend 


A.1.3 LDA 


Aufbau 

PNOS 

wef stadt 

streik arbeiterinnen 
Zürich trauen 
kapitalismus politik 
Solidarität prozess 

pnos flüchtlingsflut 
leben bevölkerung 
schweizer Schweiz 
stolperflüchtling stoppen 
osama flüchtlingsflut 


Table A. 10: Selektoren LDA-Modell: 2-Wort-Topics 


Aufbau 

PNOS 

arbeiterinnen demo aufbau 
Solidarität prozess politischen 
Zürich trauen märz 
stadt polizei basel 
leben politik kapital 

Schweiz schweizer initiative 
flüchtlingsflut stoppen stolperflüchtling 
somit Staat klar 

pnos flüchtlingsflut transparentaktion 
leben politischen arbeit 


Table A.ll: Selektoren LDA-Modell: 3-Wort-Topics 
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Aufbau 

PNOS 

frauen Zürich kapitalismus märz demo 

ebenfalls politischen zudem sogar ziel 

Solidarität prozess gefangenen politischen rev- 
olutionären 

pnos flüchtlingsflut lüthard august rütli 

krieg regierung bewegung imperialistischen 
svp 

Schweiz schweizer steht usa grund 

Zürich streik arbeiterinnen aktion kampf 

schweizer Schweiz volk initiative somit 

aufbau bern klar revolutionären steht 

pnos flüchtlingsflut stoppen stolperflüchtling 
osama 


Table A.12: Selektoren LDA-Modell: 5-Wort-Topics 


Aufbau 

PNOS 

krieg regierung Staat türkei politik imperialistis- 
chen bewegung partei 

streik arbeiterinnen kampf arbeiter unia streik- 
enden klar bern 

Solidarität prozess gefangenen politischen rev- 
olutionären andi Schweiz marco 

frauen kapitalismus märz kämpfen Zürich 
gesellschaft aufbau krise 

Zürich demo wef basel widerstand aktion stadt 
strasse 

Schweiz volk lassen Staat politik politischen land 
Parteien 

pnos flüchtlingsflut stolperflüchtling stoppen 
osama transparentaktion unterstützen partei 

schweizer Schweiz initiative Volkes svp usa armee 
franken 

somit bevölkerung personen nationalen kinder 
art gesellschaft Völker 

flüchtlingsflut transparentaktion osama stoppen 
pnos stolperflüchtling beitrag terrorist 


Table A.13: Selektoren LDA-Modell: 8-Wort-Topics 


Aufbau 

PNOS 

frauen märz kapitalismus arbeit kämpfen 
gesellschaft leben Schweiz ausbeutung flug- 
blatt 

Solidarität Zürich streik Schweiz andi aufbau 
gefangenen revolutionären prozess bellinzona 

Zürich demo repression widerstand basel 
strasse polizei raum demonstration Winterthur 

krieg marco kampf regierung revolution türkei 
imperialistischen knast rojava gefangenen 

arbeiterinnen wef arbeiter politik leute unia 
krise interessen klar steht 

flüchtlingsflut pnos osama transparentaktion 
stolperflüchtling stoppen unterstützen terrorist 
beitrag aktivisten 

Schweiz steht lassen arbeit Staat usa land politis- 
chen europa gesellschaft 

initiative somit svp zudem klar franken souverän 
kinder volksinitiative schütz 

pnos partei kanton bern lüthard august rütli stop- 
pen langenthal medien 

schweizer volk Schweiz politik Volkes leben grund 
armee meinung politische 


Table A.14: Selektoren LDA-Modell: 10-Wort-Topics 
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B Abstracts computerlinguistisch relevanter 
NSA-Patente 


Nachfolgend sind einige US-Patente in ihren Abstacts ausgeführt, die von der NSA angemeldet 
wurden und die aufzeigen, dass diese schon seit Jahrzehnten computerlinguistische oder 
(rein) statistische Verfahren erforscht und schützt, die im Zusammenhang mit der Verar- 
beitung natürlichsprachlicher Daten stehen. 

Alle im Volltext bei Google einsehbaren Patente wurden am 21. November 2015 abgerufen. 


B. 1 Method of retrieving documents that concern the same topic 
(1995) 

A method of identifying, retrieving, or sorting documents by language or topic involving the 
steps of creating an n-gram array for each document in a database, parsing an unidentified 
document or query into n-grams, assigning a weight to each n-gram, removing the common- 
ality from the n-grams, comparing each unidentified document or query to each database 
document, scoring the unidentified document or query against each database document for 
similarity, and based on the similarity score, identifying retrieving, or sorting the document 
or query with-respect to language or topic. 

Volltext unter URL https : / /www . google . com/ patents /US 5 4 1 8 951 


B.2 Language-independent method of generating index terms 
(1998) 


Index terms are drawn from text documents without the need for language- specific processes 
or training and are suitable as gists for the subject documents. Index terms are extracted on 
the basis ofscores of constituent n-grams relative to n-gram counts in a corpus. A method of 
extracting joint index terms to represent a plurality of documents is also provided. 

Voll text unter URL https : / /www .google . com/ patents/US5752 051 
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B.3 Automatically generating ◦ topic description for text and 
searching and sorting text by topic using the same (1999) 

A method of automatically generating a topical description oftext by receiving the text con- 
taining input words; stemming each input word to its root form; assigning a user-definable 
part-of-speech score to each input word; assigning a language salience score to each input 
word; assigning an input-word score to each input word; creating a tree structure under each 
input word, where each tree structure contains the definition ofthe corresponding input word; 
assigning a definition-word score to each definition word; collapsing each tree structure to a 
corresponding tree-word list; assigning a tree-word-list score to each entry in each tree-word 
list; combining the tree-word lists into a final word list; assigning each word in the final word 
list a final-word-list score; and choosing the top N scoring words in the final word list as the 
topic description ofthe input text. Document searching and sorting may be accomplished by 
performing the method described above on each document in a database and then comparing 
the similarity ofthe resulting topical descriptions. 

Voll text unter URL https : / /www .google . com/ patent s/US5 937 422. 


B.4 Device and method for full-text large-dictionary string 
matching using n-gram hashing (2001) 

A method and apparatus providing full-text scanning for matches in a large dictionary is 
described. The invention is suitable for SDI (selective dissemination of information) Systems, 
accommodating large dictionaries (104 to 105 entries) and rapid processing. A preferred 
embodiment employs a hardware primary test on a single commercially-available gate-array 
board hosted by a Computer, in which a Software secondary test is conducted. No delimiter 
cues such as spaces or punctuation are required. 

Volltext unter URL https : / /www . google . com/patents /US 61 69969. 


B.5 Method for finding large numbers of keywords in continuous 
text streams (200 1 ) 

A method of full-text scanning for matches in a large dictionary of keywords is described, 
suitable for SDI (selective dissemination of information). The method is applicable to large 
dictionaries (hundreds of thousands of entries) and to arbitrary byte sequences for both pat- 
terns and sample streams. The approach employs Boyer-Moore-Horspool skipping, extended 
to pattem collections and digrams, followed by an n-gram hash test, which also identifies a 
subset offeasible keywords for conventional pattem matching at each location of a putative 
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match. 

Volltext unter URL https : / /www .google . com/ patents /US 631 1 183. 


B.6 Method of summarizing text using just the text (2005) 

A method of summarizing a text by the following steps. Identifying the textual units in the 
text. Selecting a first set of textual units and identifying its textual units. Selecting a second 
set of textual units and identifying its textual units. Determining how many textual units 
are shared between the first and second sets of textual units. Selecting a third set of textual 
units between the first and second set of textual units and identifying its unique textual 
units. Determining the frequency of occurrence ofthe textual unit in the third set of textual 
units. Determining the frequency of occurrence ofthe textual unit in the text. Determining 
the proximity ofthe results ofthe last two steps. Calculating a score for the first set of textual 
units. Assigning the highest score to the first set of textual units. Selecting a numbers of first 
sets of textual units, according to score, as the summary ofthe text. 

Volltext unter URL https : / /www . google . com . ar /patents /US 6 904 5 64. 


B.7 Method of summarizing text by sentence extraction (2006) 

A method of summarizing text. The sentences in the text are identified first. Then, the terms 
in each sentence are identified. A matrix is then generated, where the columns represent 
the sentences and the rows represent the terms. The entries in the matrix are weighted with 
an exponentially decaying function or a Hidden Markov Model. The Euclidean length of 
each column is determined. The sentence corresponding to the column having the maximum 
Euclidean length is selected as a summary sentence. The columns corresponding to the 
remaining sentences haue their matrix entries reduced. If additional summary sentences are 
desired then return to the step of determining Euclidean length ofthe columns. 

Volltext unter URL https : / /www . google . com/ patents /US 6 9 90 634. 


B.8 Method of optical character recognition using feature 
recognition and baseline estimation (2008) 

The present Invention is a method of optical character recognition. First, text is received. Next 
all words in the text are identified and associated with the appropriate line in the document. 
The directional derivative ofthe pixellation density function defining the text is then taken, 
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and the highest value points for each word are identifted from this equation. These highest 
value points are used to calculate a haseline for each word. A median anticipated haseline 
is also calculated and used to verify each baseline, which is corrected as necessary. Each 
word is then parsed into feature regions, and the features are identified through a series of 
complex analyses. After identifying the main features, outlying Ornaments are identified and 
associated with appropriate features. The results are then compared to a database to identify 
the features and then displayed. 

Volltext unter URL https : //www .google . com/ patents/US7454 0 63. 


B.9 Natural language database searching using morphological 
query term expansion (2010) 

The present invention is a method of database searching. First, a language is selected. Next, 
elements are received. The System is then searched to identify at least one unit nurnber that 
is associated with a chosen element, the unit nurnber being linked to a data unit containing 
morphological variants ofthe element. Ifno unit nurnber is identified, the element is com- 
pared to a prefix list. If no match is found there, the element is broken into a prefix and suffix, 
and the prefix and suffix are matched to a prefix list, suffix list or a unit nurnber. This process 
is repeated for all elements. A unit nurnber associated with each element is then chosen, 
and the elements contained in the data units linked to the unit numbers are compared to a 
database. The results are displayed and preferably ranked according to user preferences. If 
an element is associated with multiple unit numbers, this process is repeated until all data 
units have been compared to the database. 

Volltext unter URL https : / /www .google . com/ patents /US 7 7 6128 6. 


B.10 Method of database searching (2010) 

The present invention is a method of database searching. First, a language is selected and 
elements received. The System is searched to identify a unit nurnber associated with each 
element, which is linked to a data unit containing morphological variants of the element. 
Ifnone are identified, the element is broken into sub-textual units that may contain a pre- 
fix, compound-prefix, and/or suffix along with a primary element. A unit nurnber is then 
obtained for the primary element. If this does not result in a match, the elements may be 
saved in a database for further linguistic development. A unit nurnber associated with 
each matched element is then chosen, and the elements contained in the data units linked 
to the unit numbers are compared to a database index. If an element is associated with 
multiple unit numbers, this process is repeated until all data units have been compared to 
the database. 


97 


APPENDIX B. ABSTRACTS COMPUTERLINGUISTISCH RELEVANTER NSA-PATENTE 


Volltext unter URL https : //www .google . com/pat ent s/US7 7 97 152. 


B.l 1 Method of identifying topic of text using nouns (2010) 

A method of identifying a topic of a text. Text is received. Then, the nouns in the text are 
identified. The singulär form of each identified noun is determined. Combinations are 
created ofthe singulär form ofthe identified nouns, where the nurnber of singulär forms of 
the nouns in the combinations is user-definable. The frequency of occurrence in the text of 
each noun that corresponds to its singulär form is determined. Each frequency of occurrence 
is assigned as a score to its corresponding singulär form noun. Each combination of singulär 
form nouns is assigned a score that is equal to the sum ofthe scores ofits constituent singulär 
form nouns. The user-definable nurnber oftop scoring singulär form nouns and combinations 
of singulär form nouns are selected as the topic ofthe text. 

Voll text unter URL https : / /www .google . com/ patent s/US7 8 052 91. 


B.l 2 Method of assessing language translation and interpretation 
( 2012 ) 


A method of assessing quality of language translation and interpretation by receiving source 
material and a translation, identifying the source material’s content and format, assigning 
a first rating to the source material’s level of difficulty in translating the source material, 
determining the translation’s type, assigning a second rating to the translation’s accuracy, 
assigning a third rating to the degree to which the translation interprets the source material’s 
intended message, assigning a fourth rating to the formatting ofthe translation, and evalu- 
ating the four ratings to determine an assessment ofthe translation’s language translation 
and interpretation. 

Volltext unter URL https : / /www . google . com/ patent s/US8 18537 3. 


B.l 3 Device for and method of language Processing (2013) 

The present invention is a device for and method of language processing that includes a 
communication database of Communications, a transcription database of transcripts for the 
communication, an extractor for extracting a visual representation ofeach communication, a 
first displayer for displaying a visual representation of a communication and its transcrip- 
tion, a segmentor for segmenting a visual representation, a media player, a first editor for 
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blanking portions ofa transcription and adding text, a second editor for filling in blanks 
and adding text, a second displayer for displaying a transcription that were blanked along 
with the corresponding entries made by the second editor and adding textual information, 
and a third displayer for providing feedback. 

Volltext unter URL https : / /www . google . com/patents/US8380485. 


99 


1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

21 

22 

23 

24 

25 

26 

27 

28 

29 

30 

31 

32 

33 


C Inoffizielles oder unpubliziertes 
Quellenmaterial 

C.l XKeyscore-Regeln im Zusammenhang mit 
Tor-Anonymisierungstechnologien 

Am 29. November 2015 unter http : //daserste . ndr . de/panorama/ xkeyscorerule 

sl0 0.txt abgerufen: 

// START_DEFINITION 

/ -k -k 

* Fingerprint Tor authoritative directories enacting the directory protocol. 

* / 

f ingerprint ( ' anonymizer /tor/node/authority' ) = $tor_authority 
and ( $tor_directory or preappid ( / anonymizer\/tor\/directory/ ) ) ; 

// END_DEFINITION 

// START_DEFINITION 

/ * 

Global Variable for Tor foreign directory Servers. Searching for potential Tor 
clients connecting to the Tor foreign directory Servers on ports 80 and 443. 

* / 

$tor_f oreign_directory_ip = ip ( ' 1 93 . 23 . 24 4 . 24 4 ' or '194.109.206.212' or 
'86.59.21.38' or '213.115.239.118' or '212.112.245.170') and port ('80' or 
' 443' ) ; 

// END_DEFINITION 

// START_DEFINITION 

/ * 

this variable contains the 3 Tor directory Servers hosted in FVEY countries . 

Please do not update this variable with non-FVEY IPs. These are held in a 
separate variable called $tor_f oreign_directory_ip . Goal is to find potential 
Tor clients connecting to the Tor directory Servers. 

* / 

$tor_fvey_directory_ip = ip ( ' 128 . 31 . 0 . 39' or ' 216.224.124.114' or 
'208.83.223.34') and port ('80' or '443'); 

// END_DEFINITION 

// START_DEFINITION 
requires grammar Version 5 
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34 /** 

35 * Identify clients accessing Tor bridge Information. 

36 */ 

37 f ingerprint ( ' anonymizer /tor/bridge/tls ' ) = 

38 ssl_x50 9_sub ject ( ' bridges . torpro ject . org' ) or 

39 ssl_dns_name ( ' bridges . torpro ject . org' ) ; 

40 

41 /** 

42 * Database Tor bridge Information extracted from confirmation emails. 

43 */ 

44 f ingerprint (' anonymizer/tor/bridge/email' ) = 

45 email_address ( ' bridges @ torpro ject .org' ) 

46 and email_body (' https : //bridges . torpro ject . org/ ' : c++ 

47 extractors : { { 

48 bridges [ j = /bridge\s ( [ 0-9 ] { 1 , 3 } \ . [ 0-9 ] { 1 , 3 } \ . [ 0-9 ] { 1 , 3 } \ . [ 0-9 ] { 1 , 3 } ) 

: ? ( [0-9] {2,4}?[ A 0-9])/; 

49 }} 

50 init : { { 

51 xks : : undef ine_name ( " anonymizer /tor/torbridges/ email confirmation" ) ; 

52 }} 

53 main : { { 

54 static const std::string SCHEMA_OLD = "tor_bridges" ; 

55 static const std::string SCHEMA_NEW = "tor_routers" ; 

56 static const std::string FLAGS = "Bridge"; 

57 if (bridges) { 

58 for (size_t i=0; i < bridges . size () ; ++i) { 

59 std:: string address = bridges [ i ][ 0 ] + + bridges [ i] [ 1] ; 

60 DB [ SCHEMA_OLD ] [ " tor_br idge " ] = address; 

61 DB . apply ( ) ; 

62 DB [ SCHEMA_NEW] ["tor_ip"] = bridges [i] [ 0 ] ; 

63 DB [ SCHEMA_NEW] [ " tor_port_or " ] = bridges [i] [1]; 

64 DB [ SCHEMA_NEW] [ " tor_f lags " ] = FLAGS; 

65 DB . apply ( ) ; 

66 } 

67 xks : : fire_f ingerprint ( "anonymizer/tor/directory/bridge" ) ; 

68 } 

69 return true; 

70 } } ) ; 

71 // END_DEF INIT ION 

72 

73 

74 // START_DEF INIT ION 

75 /* 

76 The fingerprint identifies sessions visiting the Tor Project website from 

77 non-fvey countries. 

78 */ 

79 fingerprint ( ' anonymizer/ tor/torpo ject_visit ' ) =http_host ( ' www .torproject.org' ) 

80 and not (xf f_cc (' US' OR 'GB' OR 'CA' OR 'AU' OR 'NZ')); 

81 // END_DEF INIT ION 

82 

83 

84 // START_DEF INIT ION 


101 



APPENDIX C. INOFFIZIELLES ODER UNPUBLIZIERTES QUELLENMATERIAL 


85 /* 

86 These variables define terms and websites relating to the TAILs (The Amnesie 

87 Incognito Live System) Software program, a comsec mechanism advocated by 

88 extremists on extremist forums . 

89 */ 

90 

91 $TAILS_terms=word ( ' tails ' or ' Amnesiac Incognito Live System') and word('linux' 

92 or ' USB ' or ' CD ' or ' secure desktop' or ' IRC ' or 'truecrypt' or ' tor '); 

93 $TAILS_websites= (' tails . boum . org/ ' ) or ('linuxjournal.com/content/linux*'); 

94 // END_DEFINITION 

95 

96 // START_DEFINITION 

97 /* 

98 This fingerprint identifies users searching for the TAILs (The Amnesie 

99 Incognito Live System) Software program, viewing documents relating to TAILs, 

100 or viewing websites that detail TAILs. 

101 */ 

102 fingerprint (' ct_mo/TAILS' ) = 

103 fingerprint (' documents/comsec/tails_doc' ) or web_search ( $TAILS_terms ) or 

104 url ( $TAILS_websites ) or html_t it le ( $TAILS_websites ) ; 

105 // END_DEFINITI0N 

106 

107 

108 // START_DEFINITION 

109 requires grammar Version 5 

110 /** 

111 * Aggregate Tor hidden Service addresses seen in raw traffic. 

112 */ 

113 mapreduce :: plugin (' anonymizer/tor/plugin/ onion' ) = 

114 immediate_keyword (/(?: ( [a-z ] +) :\/\/) {0,1} ([a-z2-7] {16})\.onion(?:: ( \d+) ) { 0, 1 } /c : 

c++ 

115 includes : { { 

116 #include <boost/lexical_cast . hpp> 

117 }} 

118 proto : { { 

119 message onion_t { 

120 required string address = 1; 

121 optional string scheme = 2; 

122 optional string port = 3; 

123 } 

124 }} 

125 mapper<onion_t> : {{ 

126 static const std::string prefix = " anonymizer/tor/hiddenservice/address/ " ; 

127 

128 onion_t onion; 

129 size_t matches = cur_args ( ) ->matches . size ( ) ; 

130 for (size_t pos=0; pos < matches; ++pos) { 

131 const std::string Svalue = match(pos); 

132 if (value . size ( ) == 16) 

133 onion . set_address (value) ; 

134 eise if (! onion . has_scheme () ) 

135 onion . set_scheme (value) ; 
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136 eise 

137 onion . set_port (value) ; 

138 } 

139 

140 if (! onion . has_address () ) 

141 return false; 

142 

143 MAPPER . map (onion . address ( ) , onion) ; 

144 xks : : f ire_f ingerprint (pref ix + onion . address ()) ; 

146 return true; 

146 }} 

147 reducer<onion_t> : {{ 

148 for ( values_t : : const_iterator iter = VALUES . begin () ; 

149 iter != VALUES . end () ; 

150 ++iter) { 

151 DB [ " tor_onion_survey" ] [ "onion_address" ] = iter->address ( ) + ".onion"; 

152 if ( iter->has_scheme ( ) ) 

153 DB [ "tor_onion_survey " ] [ "onion_scheme" ] = iter->scheme ( ) ; 

154 if (iter->has portO) 

155 DB [ "tor_onion_survey " ] [ "onion_port " ] = iter->port ( ) ; 

156 DB [ "tor_onion_survey" ] [ "onion_count" ] = boost : : lexical_cast<std : : string> ( 

TOTAL_VALUE_COUNT ) ; 

157 DB . apply ( ) ; 

158 DB . clear ( ) ; 

159 } 

160 return true; 

161 } } ) ; 

162 

163 /** 

164 * Placeholder fingerprint for Tor hidden Service addresses. 

165 * Real fingerpritns will be fired by the plugins 

166 * ' anonymizer/tor/plugin/onion/* ' 

167 */ 

168 fingerprint (' anonymizer/tor/hiddenservice/address' ) = nil; 

169 // END_DEFINITION 

170 

171 

172 // START_DEFINITION 

173 appid ( ' anonymizer/mailer/mixminion' , 3.0, viewer=$ascii_viewer ) = 

174 http_host ( ' mixminion' ) or 

175 ip (' 128.31 .0 .34' ) ; 

176 // END_DEFINITION 


C.2 Daniel Mossbrucker (2015): Digitale Informantenschutzrechte 

Deckblatt, Zusammenfassung, Inhaltsverzeichns und Fazit 

Nachfolgend werden mit ausdrücklicher Genehmigung von Daniel Mossbrucker folgende 
Teile seiner Bachelorarbeit zur Verfügung gestellt: 
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• Deckblatt nach den Vorgaben der Technischen Universität Dortmund 

• Zusammenfassung (Abstract) 

• Volles Inhaltsverzeichnis 

• Fazit 

• Literaturverzeichnis 

Auf Grund des Sperrvermerks zum Schutz besonders schätzenswerter persönlicher Infor- 
mantendaten, die unter dem journalistischen Quellenschutz fallen, kann die Arbeit in ihrem 
Hauptteil zur Zeit nicht und später wenn - dann nur eingeschränkt - publiziert werden. 

Nichtsdestotrotz können im Anhang die interessierenden Quellenverweise, die wichti- 
gen Befunde (summarisch) und damit Schlüsse der Arbeit öffentlich gemacht werden. 

Für die Möglichkeit diese wichtige Arbeit in Auszügen in den Anhang stellen zu können, 
danke ich Daniel Mossbrucker an dieser Stelle ausdrücklich. 
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Zusammenfassung 


Zusammenfassung 

Die vorliegende Arbeit behandelt die Frage, inwiefern sich durch die Digitalisierung die 
journalistische Recherche so verändern hat, dass die rechtlichen Voraussetzungen in 
Deutschland nicht mehr ausreichen, um einen umfassenden publizistischen Informanten- 
schutz zu gewährleisten. Mobilfunk und Internet haben Journalisten Recherchemöglich- 
keiten beschert, die im analogen Zeitalter undenkbar schienen. Die dabei hinterlassenen 
Kommunikationsdaten ermöglichen es jedoch Geheimdiensten, Polizeibehörden und 
Strafermittlem, den Verlauf von journalistischen Recherchen exakt nachzuzeichnen und 
damit Kommunikationsverhältnisse mit Informanten offenzulegen. 

Damit stehen Ermittlern Maßnahmen mit bisher ungekannten Möglichkeiten zur Verfü- 
gung. Durch die Normen, die klassischerweise den Informantenschutz in Deutschland 
begründen, sind Journalisten davor nicht geschützt. Das Zeugnisverweigerungsrecht für 
Medienschaffende (§ 53 StPO) sowie ein Durchsuchungs- und Beschlagnahmeverbot von 
Redaktionsräumen (§ 97 StPO) beschränkt sich auf die analoge Welt. Auf Kommunikati- 
onsdaten der Mobilflink- und Intemetnutzung von Journalisten kann hingegen einfacher 
zugegriffen werden, da in der Gesetzgebung hier eine bewusste Abstufung zwischen 
Journalisten und anderen Berufsgeheimnisträgern vollzogen worden ist (§ 160a StPO) 

Dieses in der Literatur kritisierte Defizit wird in einem Feldexperiment in die Realität 
überführt, indem die Recherche eines Journalisten technisch überwacht wird. Die anfal- 
lenden Kommunikationsdaten werden anschließenden vor dem Hintergrund ausgewertet, 
was sie über den Journalisten und seine Beziehung zu seinen Informanten aussagen. Da- 
bei wird deutlich, dass bereits die Verkehrsdaten ausreichen, um ein Kommunikations- 
und Bewegungsprofil des Journalisten zu skizzieren. Dieses dürfte in einem Strafverfah- 
ren ausreichen, um weitergehende Ermittlungsmaßnahme wie die Auswertung von 
Kommunikationsinhalten zu genehmigen und damit Rechtsverstöße von Informanten 
nachzuweisen. 

Die Untersuchung kommt zu dem Ergebnis, dass im Falle des Feldexperiments die recht- 
lichen Normen der Strafprozessordnung ausgereicht haben dürften, um Informanten zu 
schützen. Dies hegt daran, dass die von den Informanten begangenen Straftaten nicht im 
Katalog der Straftaten aufgeführt werden, die eine Verkehrsdatenabfrage erlauben. Für 
andere Recherchen kann nicht ausgeschlossen werden, dass Journalisten als Teilnehmer 
einer solchen Straftat eingestuft werden und sie Ziel von Ermittlungsmaßnahmen werden. 

Die Ergebnisse verdeutlichen, dass in Vorhaben wie der Vorratsdatenspeicherung eine 
Gefährdung für die journalistische Arbeit zu sehen ist. Gleichzeitig muss Informanten- 
schutz im Zeitalter der Digitalisierung neu gedacht und durch verantwortungsvolles Han- 
deln der Journalisten - etwa in Form von verschlüsselter Kommunikation - umgesetzt 
werden. 


III 
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7 Fazit und Ausblick 

Diese Arbeit warf zu Beginn die ganz allgemeine Frage auf, ob Journalisten heute noch 
ihren Informanten glaubwürdig Quellenschutz zusichern können. Die Spiegel-Affäre ist 
über ein halbes Jahrhundert her, seitdem hat das Bundesverfassungsgericht in ständiger 
Rechtsprechung den publizistischen Informantenschutz und damit die Pressefreiheit ge- 
stärkt. Deutschland rangiert weltweit auf Platz zwölf der Pressefreiheit 211 und eine kol- 
lektive Angst der Journalisten vor Überwachung ist trotz NSA- Affäre nicht auszu- 
machen. Ob diese Haltung noch zeitgemäß ist, muss nach der vorliegenden Untersuchung 
ernsthaft bezweifelt werden. 

Im Wesentlichen waren mit der Arbeit zwei Erkenntnisziele verbunden: Es sollte erstens 
geklärt werden, was digitale Daten über die journalistische Recherche aussagen können 
und zweitens, ob rechtlich die Zugriffsbefugnisse von Strafermittlem auf diese Kommu- 
nikationsdaten den Informantenschutz untergraben können. Allen in der Methodenkritik 
aufgeführten Einschränkungen vorangestellt muss festgehalten werden, dass sowohl die 
Kommunikationsdaten an sich wie auch der Umgang mit ihnen das Potential haben, pub- 
lizistische Informantenschutzrechte zu schwächen. 

Im rechtlichen Bereich konnte gezeigt werden, dass es hier theoretisch zu einer Schwä- 
chung der Informantenschutzrechte gekommen ist. Dass Journalisten im analogen Be- 
reich quasi absolute Schutzrechte durch das Zeugnisverweigerungsrecht und das Be- 
schlagnahmeverbot genießen, dieser Schutz aber bei verdeckten Ermittlungsmaßnahmen 
abgeschwächt worden ist, wird in der Literatur als unverständlich kritisiert. Erst Recht 
wenn man sieht, dass andere Berufsgeheimnisträger wie Ärzte, Rechtsanwälte und Geist- 
liche ihre Schutzrechte auch im digitalen Bereich in gleicher Qualität behalten haben. 
Von einer grundsätzlichen Bedrohung des journalistischen Quellenschutzes zu sprechen, 
mag sicher übertrieben sein. Aber dass es schon rein quantitativ mehr Möglichkeiten gibt, 
mit verdeckten Methoden gegen Journalisten zu ermitteln als mit offenen, ist offensicht- 
lich und im Sinne der Pressefreiheit sicherlich ein Rückschritt. 

Diese Entwicklung ist umso bedrohlicher, wenn man sich anschaut, was die Datenspuren 
des Journalisten im vorliegenden Fall über seine Recherche offenbart haben. Bezie- 
hungsgeflechte, Bewegungsprofile und Verhaltensmuster - digitale Daten ermöglichen 
es, einer Recherche alle Vertraulichkeit zu nehmen. Dieses Potential im Einzelfall sicht- 
bar gemacht zu haben, ist der zentrale Erkenntnisgewinn dieser Arbeit und kann helfen, 
einer Debatte, die bisher vor allem theoretisch im juristischen Fachdiskurs geführt wor- 
den ist, ein greifbares und anschauliches Exemplum zu liefern. 

Die Ergebnisse sollten Ermutigung genug sein, sich dieses für den Journalismus und die 
Gesellschaft insgesamt wichtigen Themas weiter wissenschaftlich zu widmen. Aufgrund 

211 vgl. Reporter ohne Grenzen (2015): 1 
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der formalen, finanziellen und technischen Beschränkungen dieser Arbeit unterliegen die 
Ergebnisse beschränkter Aussagekraft, die es in weiteren Arbeiten zu fundieren gilt. Hier 
hat die Arbeit vielschichtige Möglichkeiten offenbart: Zunächst steckt in den Kommuni- 
kationsdaten selbst ein kaum greifbares Potential, das hier nur zu Bruchteilen ausgewertet 
werden konnte. Speziell die über 39 Millionen Netzwerkpaketdaten bieten die Möglich- 
keit, Informanten-Beziehungen, die über das Internet geführt worden sind, noch zielge- 
richteter zu analysieren. Mit einer Deep Packet Inspection (DPI) könnte beispielsweise 
gezeigt werden, was alles aus den Paketdaten zu lesen ist 212 - und möglicherweise auch 
schon gelesen wird 212 . Bei wiederholenden Experimenten wäre es angebracht, einerseits 
die Zahl der Probanden zu erhöhen und andererseits die technische Ausstattung, insbe- 
sondere von Mobilfunkgeräten, zu verbessern, um den Umfang der Datensammlung den 
realen Bedingungen weiter anzugleichen. Beides zusammengenommen würde die Aussa- 
gekraft der Experimente weiter stärken. 

Im qualitativen Bereich ist sichtbar geworden, dass eine Beschränkung auf Normen der 
StPO zwar aus historischen Gesichtspunkten si nn voll ist, gleichzeitig jedoch polizeilich- 
präventive Maßnahmen sowie die Möglichkeiten der Geheimdienste dabei ausgeklam- 
mert werden. Im Lichte der NSA-Veröffentlichungen und des Falls Vorbeck beim Nach- 
richtenmagazin „Der Spiegel“ 214 wird offensichtlich, wie notwendig eine Ausdehnung 
von Untersuchungen auf diese Gesetze wäre. 

Da das Bedrohungspotential, das in digitalen Daten für den publizistischen Informanten- 
schutz stecken kann, immer offensichtlicher wird, wäre es überdies ebenfalls lohnend, 
den Blick auf die Akteure zu richten: Fühlen sich investigative Journalisten durch mögli- 
che Überwachungsmaßnahmen in ihrer Arbeit eingeschränkt? Eine qualitative Befragung 
könnte zeigen, ob die zumeist abstrakte Gefahr schon dazu geführt, dass die Pressefrei- 
heit auf diese Weise eingeschränkt worden ist. 

Auf die Digitalisierung mit einem solchen vorauseilendem Gehorsam zu antworten, wäre 
zweifelsfrei die falsche Reaktion. Gleichzeitig ist aber natürlich zu beachten, dass sich 
die Entwicklung nicht zurückdrehen lassen wird. Es wäre aus journalistischer Perspektive 
auch gar nicht wünschenswert. Die Verdatung der Welt, das Internet der Dinge und die 
zunehmende Bedeutung von Query-Öffentlichkeit sind Trends, die sich eher beschleuni- 
gen werden als zurückgehen. Die Vorteile, die darin liegen, werden von der Bevölkerung 
(noch) als zu wertvoll angesehen, um sich wegen der Gefahren solchen technologischen 
Neuerungen zu widersetzen. 

Ein passendes Beispiel vor dem Hintergrund dieser Arbeit ist sicherlich die Debatte um 
eine Wiedereinführung der Vorratsdatenspeicherung, die bei Fertigstellung dieser Arbeit 

212 Für eine umfassende technische und rechtliche Einführung in die DPI vgl. Bedner (2009). 

213 vgl. Meister (2012). 

214 vgl. „Der Spiegel“, „Anschlag auf die Pressefreiheit“, Heft 28/2015. 
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intensiv geführt wird. 215 Die Ergebnisse des Feldexperiments haben gezeigt, dass im vor- 
liegenden Fall die Kommunikationsbeziehung zwischen Journalist und Informanten auch 
allein anhand der Verkehrsdaten deutlich hätte nachgezeichnet werden können - selbst 
bei einer Speicherfrist von zehn Wochen bzw. einer vierwöchigen bei Funkzellen. Wie 
sich Ausnahmeregelungen für Berufsgeheimnisträger technisch umsetzen lassen sollen, 
bleibt fraglich. Ein Verwertungsverbot bestimmter Kommunikationsdaten mag gut klin- 
gen - auf die Achtung der Pressefreiheit durch staatliche Behörden sollten sich Journalis- 
ten, die diese Behörden kritisieren und kontrollieren, nicht verlassen. Eine Vorratsdaten- 
speicherung ist eine moderne Form, journalistischen Quellenschutz zu untergraben, wes- 
halb sich Journalisten gegen solche Vorhaben wehren sollten und das auch tun. 216 

Die Frage ist, wie lange ein solches Wehren gegen die Ausweitung staatlicher Kontrollin- 
strumente im Lichte der technologischen Entwicklungen noch Erfolg haben kann. Der 
Kulturwissenschaftler und Netzaktivist Michael Seemann hält es nur noch für eine Zeit- 
frage, wann die Vorratsdatenspeicherung eingeführt wird. Sie ist gewissermaßen das 
sichtbarste Zeichen für einen Wechsel von einer Disziplinär- in eine Kontrollgesellschaft, 
den Gilles Deleuze in Anlehnung an Foucault schon 1990 ausgemacht hat 217 und in der 
Digitalisierung ihren Höhepunkt erreicht. 

„Die Disziplinargesellschaften sind durch Foucault dadurch geprägt, dass die Individuen die ge- 
sellschaftliche Kontrolle durch ständige Disziplinierung, Überwachung und Strafe internalisieren. 
(...) Die Kontrollgesellschaften hingegen zeichnen sich nach Deleuze dadurch aus, dass das Re- 
gime seine Macht in entscheidungsmächtige Maschinen ausgelagert hat. In einer durchcomputeri- 
sierten Welt werden Maschinen unhintergehbar (...). Die Kontrollgesellschaft, in der jede Regung, 
jede Handlung, jede Entscheidung und jede Aussage von einem totalen Kontrollorgan registriert, 
verarbeitet und reguliert wird, ist nur die folgerichtige Vorhersage, die sich aus dem Kontrollüber- 
schuss ergibt.“ (Seemann (2014): 75f.) 

Folgt man dieser Sichtweise, bedeutet moderner Informantenschutz mehr als das Verlas- 
sen auf staatlich zugesicherte Schutzrechte. Wer Informantenschutz ernst nimmt, der ver- 
sucht datensparend zu recherchieren, der bietet seinen Quellen die Möglichkeit, ver- 
schlüsselt zu kommunizieren und der bietet an, sich persönlich zu treffen, auch wenn es 
unbequem sein mag. Dies alles mag mühsamer sein als bisheriges Handeln. Aber es sollte 
zum journalistischen Selbstverständnis werden, um auf die veränderten Rahmenbedin- 
gung durch die Digitalisierung verantwortungsvoll zu reagieren. 


215 vgl. den Referentenentwurf „Entwurf eines Gesetzes zur Einführung einer Speicherpflicht und einer 
Höchstspeicherfrist für Verkehrsdaten“, abrufbar unter URL: https://netzpolitik.org/wp-upload/2015-05- 
15 BMJV-Referentenentwurf-Vorratsdatenspeicherung.pdf , zuletzt aufgerufen am 04.08.2015. 

216 vgl. Stellungnahme von Medienverbänden und -unternehmen zur Wiedereinführung einer Vorratsdaten- 
speicherung, abrufbar unter URL: 

http://www.djv.de/fileadmin/user upload/Infos PDFs/Gemeinsame PM 11 06 15.pdf , zuletzt aufgerufen 
am 04.08.2015. 

217 vgl. Deleuze (1990): 254-162. 
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D Code 


Dieser Teil des Anhangs enthält Hinweise zu verwendetem Code, um die erlangten Befunde 
zu erzeugen. 

D. 1 Aufbereitung Daten und Erzeugung Selektoren 

Der Code zur Aufbereitung der Trainings daten und zur Selektorgenerierung befindet sich 
in den abgegebenen Dateien zur Masterarbeit im code/-Ordner. 

D.1.1 “Own”-Datenformate nach file(l)-Analyse: Top 50 (Originaldateien) 

1 cat f iles+types_l_raw . txt I cut -d -f2 | sed -e "s| A Mg" I sed -e "s|,.*||g" I 

sort | uniq -c | sort -gr | head -50 

2 124505 ASCII text 

3 91210 data 

4 9527 HTML document 

5 9207 UTF-8 Unicode text 

6 8988 GIF image data 

7 6051 JPEG image data 

8 3000 PNG image data 

9 471 XML document text 

10 406 ISO-8859 text 

11 378 very short file (no magic) 

12 269 exported SGML document 

13 230 SPARC demand paged executable not stripped 

14 225 SPARC demand paged executable 

15 216 SVG Scalable Vector Graphics image 

16 167 RIFF (little-endian) data 

17 166 Web Open Font Format 

18 155 Non-ISO extended-ASCII text 

19 104 MS Windows icon resource - 1 icon 

20 97 Debian binary package (format 2.0) 

21 69 bzip2 compressed data 

22 67 C source 

23 51 assembler source 

24 45 MGR bitmap 

25 43 MS Windows icon resource - 2 icons 

26 43 Emacs vl8 byte-compiled Lisp data 

27 42 UTF-8 Unicode (with BOM) text 
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28 35 XZ compressed data 

29 33 PDF document 

30 31 Macromedia Flash data (compressed) 

31 23 MIME entity 

32 18 XML 1.0 document text 

33 18 TrueType font data 

34 15 Zip archive data 

35 15 MS Windows icon resource - 4 icons 

36 13 troff or preprocessor input 

37 13 PGP public key block Public-Key (old) 

38 12 MS Windows icon resource - 3 icons 

39 10 gzip compressed data 

40 10 C++ source 

41 8 DOS executable (COM) 

42 7 PC bitmap 

43 6 Minix filesystem 

44 6 8086 relocatable (Microsoft) 

45 5 PGP signature Signature (old) 

46 4 WebM 

47 4 Pascal source 

48 4 MS Windows icon resource - 6 icons 

49 4 Embedded OpenType (EOT) 

50 3 PGP\011Secret Sub-key - 

51 3 OpenStreetMap XML data 

D.1.2 “Own”-Datenformate nach file(l)-Analyse: Top 50 (Keine Duplikate) 

1 cat f iles+types_2_raw_uniq . txt I cut -d -f2 | sed -e "s| A I |g" I sed -e " s | , . * I I 

g" | sort | uniq -c | sort -gr | head -50 

2 97410 ASCII text 

3 89873 data 

4 6918 HTML document 

5 6161 UTF-8 Unicode text 

6 5540 JPEG image data 

7 2341 PNG image data 

8 1092 GIF image data 

9 394 ISO-8859 text 

10 284 XML document text 

11 245 exported SGML document 

12 230 SPARC demand paged executable not stripped 

13 225 SPARC demand paged executable 

14 158 SVG Scalable Vector Graphics image 

15 154 Non-ISO extended-ASCII text 

16 141 RIFF (little-endian) data 

17 111 Web Open Font Format 

18 97 Debian binary package (format 2.0) 

19 86 MS Windows icon resource - 1 icon 

20 52 bzip2 compressed data 

21 44 assembler source 

22 40 C source 

23 35 Emacs vl8 byte-compiled Lisp data 

24 33 PDF document 
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25 31 XZ compressed data 

26 30 MS Windows icon resource - 2 icons 

27 29 UTF-8 Unicode (with BOM) text 

28 28 Macromedia Flash data (compressed) 

29 23 MIME entity 

30 21 MGR bitmap 

31 17 very short file (no magic) 

32 16 TrueType font data 

33 13 PGP public key block Public-Key (old) 

34 12 XML 1 . 0 document text 

35 10 Zip archive data 

36 10 MS Windows icon resource - 3 icons 

37 10 gzip compressed data 

38 8 troff or preprocessor input 

39 8 DOS executable (COM) 

40 7 MS Windows icon resource - 4 icons 

41 7 C++ source 

42 6 PC bitmap 

43 6 Minix filesystem 

44 6 8086 relocatable (Microsoft) 

45 5 PGP signature Signature (old) 

46 4 Pascal source 

47 4 Embedded OpenType (EOT) 

48 3 PGP\011Secret Sub-key - 

49 3 OpenStreetMap XML data 

50 3 MS Windows Cursor resource - 1 icon 

51 3 COM executable for MS-DOS 
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E Daten 


Hier bestehen Hinweise zu Trainings- und Evaluationsdaten, die in dieser Arbeit genutzt 
wurden. 


E.l Trainingsdaten 


Trainingsdaten finden sich in verschiedenen Verarbeitungsstufen unter data/train/. 


E.2 Evalautionsdaten 


Die Evaluationsdaten, die in der Arbeit eingsetzt wurden, sind unter eval/ zu finden: 
diese können allerdings aus Urheberrechtsgründen (Filme, Bücher und weitere Werke sind 
darunter) nicht vollständig veröffentlicht werden, sind auf Anfrage aber einsehbar. 
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F Hashsummen 


Es werden die SHA512-Hashsummen gemäss offizieller Abgabe vom 30.11.2015 - mittels 
sha512sum(l )- Kommando ermittelt - zur Verfügung gestellt. 


F.l Code 


Für code . tar: 

28293c59c988b4a33fö28be427a8251c91caea4c2e4aal893db5ce9e6542ffd93f76a0e693ca4d996540aa3b2bllc899b716fa72a8406b3b5f639ceb2d404a58 


F.2 Daten 


Für data_public .tar: 

a651d2d225ae9da3e95f8alal422f3b3bl5810el5dbd03bf37567c965af2fa6a26dec9fdl25e3c50216ae5bf89bf391800a5ece8a696faef2bd4afccb563c06c 

Für eval_public .tar: 

b2de2e4b41294664a527c9aala470f8514bl9ffbbal4adlfl)640282aea9a56541el5f9343ae8c6dd5983bl4f4414e4a6e598a77578b0a821a5ee9d5302fd5d6d 
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